Лекция 8 - Мультимодальные модели - Арсений Иванов

Тема: Мультимодальные модели Лектор: Арсений Иванов Разберем парадигму мультимодальных моделей, ландшафт, задачи и бенчмарки. Рассмотрим базовые кирпичики: ViT, Swin, CLIP, SigLIP. Посмотрим на хрестоматийные работы и их подходы для фьюза модальностей: Q‑Former (BLIP‑2), Flamingo + Perceiver Resampler, Fromage, GILL, LLAVA, Qwen2‑VL. А также обсудим техники обучения таких моделей. Перенесем мультимодальность в робототехнику: SayCan, RT‑1/RT‑2, OpenVLA 📍 TG канал AI Knowledge Club:
📍 TG чат AI Knowledge Club:
📍 Ссылка на Презентацию и материалы:

Смотрите также