ГЛУБОКОЕ погружение в ATTENTION - is all you need!

В этом видео мы посмотрим как работает Attention, который лежит в основе ChatGPT, Copilot, Gemini, Claude и других Transformer-like моделей в реализации уже классической статьи Attention is All You Need. Разберемся очень подробно в том как работают Scaled Dot-Product Attention и Self-Attention, что такое Cross и Multi-Head Attention... И выясним, чем Attention отличается от своих RNN предков и в чем его слабые стороны ТГ канал про жизнь в Нью-Йорке:
ТГ канал про машинное обучение:
ТГ чат про машинное обучение:
Использованные ссылки: 1.
- интерактивный учебник по NLP 2.
- обзор на разные виды аттеншнов 3.
- Разбор статьи Attention is All You Need с пошаговой имплементацией на путорче 4.
- Разбор механизма Self-Attention 5.
- Еще один разбор, но с интуицией, стоящей за механизмом self-attention 00:00:00 - Введение 00:02:44 - Модели Sequence-to-Sequence, задача перевода 00:13:52 - Transformer архитектура 00:17:34 - Scaled Dot-Product Attention 00:22:43 - Self-Attention 00:58:05 - Masked Self-Attention 01:05:30 - Cross Attention 01:09:56 - Сложность по памяти и времени Attention 01:17:44 - Multi-Head Attention 01:24:56 - Вывод

Смотрите также