В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса -
Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага: 1. Токенизация - разделение текста на отдельные части: символы, слова, предложения. 2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding). Предварительно обученные плотные векторные представления слов: 1. GloVe (Global Vectors) -
2. Word2Vec, Google -
3. FastText, Facebook -
Плотные векторные представления слов для русского языка: 1. RusVectōrēs –
2. RUSSE (Russian Semantic Evaluation) –
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations -
Как можно поддержать курс: 1. Яндекс Кошелек -
2. PayPal -
Заранее спасибо за помощь! Добавляйтесь в друзья в социальных сетях: вКонтакте -
https://vk.com/avsozykin Instagram - / sozykin_andr Facebook - / asozykin Twitter - / andreysozykin Мой сайт -
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs