Смузи: сглаживающая диффузия на эмбеддингах токенов для генерации текста

Семинар BayesGroup «Смузи: сглаживающая диффузия на эмбеддингах токенов для генерации текста» от 22.07.2025. Докладчик: Александр Шабалиин (НИУ ВШЭ) Чаще всего для построения непрерывной текстовой диффузии используется латентное пространство эмбеддингов токенов, которое впоследствии зашумляется с помощью добавления Гауссовского шума. Такой подход имеет важное ограничение – он никак не использует дискретность домена текстов. Альтернативой является замена эмбеддингов токенов на их one-hot векторы. В таком случае в процессе генерации модель восстанавливает конкретные токены, эксплуатируя их дискретность. Однако при этом начинает игнорироваться отношение близости между токенами. В нашей работе мы представляем Smoothie – метод текстовой диффузии, объединяющий эти два подхода. Метод представляет каждый токен в виде вектора его семантических расстояний до других токенов. В процессе зашумления расстояния постепенно сглаживаются, делая неразличимыми сначала прохожие токены, а в конце – совсем не похожие. Данный подход стабильно повышает качество генерации текста как для условной, так и для безусловной генерации.

Смотрите также