ГЛУБОКОЕ погружение в ATTENTION - is all you need!
В этом видео мы посмотрим как работает Attention, который лежит в основе ChatGPT, Copilot, Gemini, Claude и других Transformer-like моделей в реализации уже классической статьи Attention is All You Need. Разберемся очень подробно в том как работают Scaled Dot-Product Attention и Self-Attention, что такое Cross и Multi-Head Attention... И выясним, чем Attention отличается от своих RNN предков и в чем его слабые стороны ТГ канал про жизнь в Нью-Йорке: ТГ канал про машинное обучение: ТГ чат про машинное обучение: Использованные ссылки: 1. - интерактивный учебник по NLP 2. - обзор на разные виды аттеншнов 3. - Разбор статьи Attention is All You Need с пошаговой имплементацией на путорче 4. - Разбор механизма Self-Attention 5. - Еще один разбор, но с интуицией, стоящей за механизмом self-attention 00:00:00 - Введение 00:02:44 - Модели Sequence-to-Sequence, задача перевода 00:13:52 - Transformer архитектура 00:17:34 - Scaled Dot-Product Attention 00:22:43 - Self-Attention 00:58:05 - Masked Self-Attention 01:05:30 - Cross Attention 01:09:56 - Сложность по памяти и времени Attention 01:17:44 - Multi-Head Attention 01:24:56 - Вывод