ImageReFL: Баланс качества и разнообразия в диффузионных моделях, согласованных с человеком

Семинар BayesGroup «ImageReFL: Баланс качества и разнообразия в диффузионных моделях, согласованных с человеком» от 24.06.2025. Докладчик: Максим Находнов (AIRI) В последние годы диффузионные модели стали одним из ведущих инструментов для генерации изображений, демонстрируя впечатляющие результаты в качестве и разнообразии. Паралельно RL-based методы получили широкое распространение в разных областях машинного обучения. В наших работах мы применяем RL подходы для разных задач Text-to-Image генерации: учёт пользовательских предпочтений и персонализированная генерация. Данные работы отражают крайние варианты RL обучения — on-policy (ReFL-like) и off-policy (DPO-line) подходы. В нашей статье «ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models» мы исследуем методы дообучения диффузионных моделей на основе пользовательских предпочтений для повышения качества генерации изображений. Существующие методы оптимизации (ReFL, DraftK, DRTune, AlignProp) страдают от reward hacking — модель переобучается на модель награды, что снижает разнообразие изображений. Мы предлагаем метод комбинированной генерации, позволяющий управлять балансом между качеством и разнообразием, а также новый способ дообучения, который позволяет повысить разнообразие без потери качества. Во второй статье «DreamBooth DPO: Controllable Trade-off between Image Fidelity and Prompt Adherence» мы представляем метод автоматической генерации пар “лучшее–хуже” для DPO-дообучения, который без участия человека одновременно улучшает точность следования промпту и сохранение уникального визуального концепта/

Смотрите также