Введение в ворд2век - Фарид Хафизов

Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года (
цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение "эмбединга" слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее. В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма. На простом примере будет проиллюстрирован базовый алгоритм. Презентация рассчитана на тех, кто начинает изучать NLP. 📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий:
🗨 Обсудить доклады можно в нашем чатике

Смотрите также