Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
#word2vec #llm Преобразование текста в числа — первый шаг в обучении любой модели машинного обучения для задач обработки естественного языка (NLP). Хотя прямое кодирование и метод «мешка слов» предоставляют простые способы представления текста в виде чисел, им не хватает семантического и контекстного понимания слов, что делает их непригодными для задач обработки естественного языка, таких как перевод и генерация текста. Встраивание помогает представить слова в виде векторов, отражающих их семантическое значение. В этом видео я подробно объясняю встраивание и популярные методы встраивания, такие как Word2Vec, а также пользовательские встраивания, используемые в архитектурах Transformer для генерации языка и других задач обработки естественного языка. Посмотрите видео о большой языковой модели: 1) Введение в большую языковую модель • LLMs Like ChatGPT, Explained Visually – Ho... 2) Подготовка набора данных и токенизация • LLM Training Starts Here: Dataset Preparat... Временная метка: 0:00 — Введение 0:20 — Представление изображения в виде чисел 0:54 — Представление текста в виде чисел 2:20 — Кодирование одним махом 3:40 — Пакет слов (униграмма, биграмма и N-грамма) 4:59 — Семантическое и контекстное понимание текста 6:28 — Встроенные представления слов 9:44 — Визуализация встраиваемых представлений Word2Vec 10:30 — Обучение Word2Vec (CBOW и Skip-Gram) 14:46 - Слой встраивания в архитектуру Transformer 17:16 - Позиционное кодирование 18:46 - Заключение Эффективная оценка представлений слов в векторном пространстве: Доклад Word2Vec: Визуализация встраиваний Word2Vec здесь: