LLM: Китайский прорыв с LLaDA

Тема доклада — инновационный подход к обучению крупных языковых моделей (LLM), предложенному китайскими исследователями, а именно модель LLaDA. Это LLM, использующая диффузионный процесс для «расшумления» и восстановления текстов вместо традиционного авторегрессионного метода. В этом видео: 🔳 Узнаем, чем отличается подход LLaDA от решений LLaMA и GPT-4o, и рассмотрим их сравнение на различных задачах. 🔳 Обсудим новые возможности для файнтюнинга и масштабирования моделей LLaDA. Спикер: Алина Бурыкина, ML Engineer компании Mad Devs. Видео будет полезно специалистам по машинному обучению, разработчикам языковых моделей и всем, кто интересуется современными методами в области генеративного ИИ. Делитесь своими вопросами и обратной связью в комментариях! ВНИМАНИЕ❗️ Запись начинается не с самого начала мероприятия. Часть вступления или начальной дискуссии может отсутствовать. ------------------------------------------------------------------------------- ТАЙМ-КОДЫ 0:00 - 1:53 Введение и основные проблемы авторегрессии 1:53 - 2:15 Диффузия как альтернатива: параллелизм и гибкость 2:15 - 3:17 Работа диффузии в дискретном пространстве 3:17 - 4:17 Диффузионные модели как марковские процессы 4:17 - 5:45 Форвард и реверс процессы с примерами шумов 5:45 - 7:02 Дискретизация и свойства матриц перехода 7:02 - 10:12 Оптимизация через дивергенцию и ELBO 10:12 - 12:50 Расчёт вероятностей и теорема Байеса 12:50 - 16:45 Выбор прайеров: юниформ, гаусс и семантические переходы 16:45 - 18:22 Параметризация и стратегия предсказаний 18:22 - 20:13 Обучение диффузии и построение датасета 20:13 - 22:49 Модель LLaDA: архитектура и ресурсоёмкость 22:49 - 24:28 Возможности адаптации и следование инструкциям 24:28 - 27:24 Архитектура трансформера и обучение Лады 27:24 - 28:57 Файнтюнинг: маскирование респонса и работа с промтами 28:57 - 32:44 Инференс и методы сэмплирования токенов 32:44 - 35:16 Сравнение с LLM: флопы, производительность и ограничения 35:16 - 38:38 Результаты на задачах и победа в реверс-поэзии 38:38 - 39:36 Ограничения, мультимодальность и будущие исследования 39:36 - 43:57 Вопросы и обсуждение преимуществ диффузии ------------------------------------------------------------------------------- ССЫЛКИ 🔗 Telegram [Mad ML Talks] -
Telegram [Mad Devs Channel] -
​ Facebook -   / maddevsllc   Instagram -   / maddevsio   X [ex.Twitter] -
#machinelearning #ml #llm #largelanguagemodels #llada

Смотрите также