Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Андрей Кузнецов — Способы энкодинга видео для мультимодальных моделей
Подробнее о конференции VideoTech: — — Скачать материалы к докладу — Большие языковые модели (LLM) очень активно начали использоваться не только в задачах обработки естественного языка. Андрей рассказал про существующие подходы к построению мультимодальных архитектур для понимания визуальных модальностей. Что необходимо для решения таких задач, как формирование текстовых описаний (кэпшенинг), ответов на вопросы и других. Самая сложная модальность с точки зрения построения ее латентного представления — видео. При подходе «в лоб» контекст (память) стандартной языковой модели (длина контекста — 32 000 токенов) может быть заполнен буквально за 60 кадров. Спикер поговорил про способы эффективного энкодинга видео в пространство эмбеддингов языковых моделей, возможность обработки длинного контекста, а также о способах «связывания» модальности видео и LLM. Про проблемы в энкодинге, бенчмарки для оценки качества, возможности работы со стриминговым видео и альтернативные архитектуры (например, модели State Space). В конце — список открытых вопросов и челленджей.