Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Лекция 8 - Мультимодальные модели - Арсений Иванов
Тема: Мультимодальные модели Лектор: Арсений Иванов Разберем парадигму мультимодальных моделей, ландшафт, задачи и бенчмарки. Рассмотрим базовые кирпичики: ViT, Swin, CLIP, SigLIP. Посмотрим на хрестоматийные работы и их подходы для фьюза модальностей: Q‑Former (BLIP‑2), Flamingo + Perceiver Resampler, Fromage, GILL, LLAVA, Qwen2‑VL. А также обсудим техники обучения таких моделей. Перенесем мультимодальность в робототехнику: SayCan, RT‑1/RT‑2, OpenVLA 📍 TG канал AI Knowledge Club: 📍 TG чат AI Knowledge Club: 📍 Ссылка на Презентацию и материалы: