СПбГУ -- 2024.12.14 -- Большие языковые модели

Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения -- "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу:
Разделы: 00:00 Введение, проблемы трансформеров 10:26 Законы масштабирования 31:15 Способности LLM тоже масштабируются 44:58 Компоненты прогресса 57:04 Современные LLM и что они умеют 01:15:57 Перерыв 01:28:08 Майлз 01:29:22 Вспоминаем RL 01:44:12 DPG, TRPO и PPO: новости policy gradient 01:54:00 RLHF 02:04:00 Адаптеры и LoRA 02:15:20 Instruction tuning: датасеты, синтетика, bootstrapping 02:32:03 Как расширить контекст трансформера 02:40:52 Линейные трансформеры: возвращение RNN 02:50:00 SSM и идея Mamba 03:05:35 RAG

Смотрите также