Андрей Кузнецов — Способы энкодинга видео для мультимодальных моделей

Подробнее о конференции VideoTech:
— — Скачать материалы к докладу — 
Большие языковые модели (LLM) очень активно начали использоваться не только в задачах обработки естественного языка. Андрей рассказал про существующие подходы к построению мультимодальных архитектур для понимания визуальных модальностей. Что необходимо для решения таких задач, как формирование текстовых описаний (кэпшенинг), ответов на вопросы и других. Самая сложная модальность с точки зрения построения ее латентного представления — видео. При подходе «в лоб» контекст (память) стандартной языковой модели (длина контекста — 32 000 токенов) может быть заполнен буквально за 60 кадров. Спикер поговорил про способы эффективного энкодинга видео в пространство эмбеддингов языковых моделей, возможность обработки длинного контекста, а также о способах «связывания» модальности видео и LLM. Про проблемы в энкодинге, бенчмарки для оценки качества, возможности работы со стриминговым видео и альтернативные архитектуры (например, модели State Space). В конце — список открытых вопросов и челленджей.

Смотрите также