Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения -- "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: Разделы: 00:00 Что такое внимание 13:20 Рекуррентные модели внимания 18:16 Encoder-decoder with attention 18:16 Show, Attend, and Tell 45:13 Архитектура трансформера 53:10 Self-attention 01:29:21 Encoder-decoder attention 01:37:25 Выводы о трансформере