Разработка TTS сервиса (вебинар 06.11.2025)

Чат тут
Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит ) В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог. И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами. В итоге получился неплохой локальный голосовой агент, который: Распознаёт речь в реальном времени через WebSocket Использует VAD (Silero) для определения пауз Транскрибирует с помощью faster-whisper Общается через LangChain + локальные LLM модели Синтезирует речь обратно моим голосом Работает с минимальной задержкой В общем в этот четверг начнем с разработки TTS сервиса. Кстати старую группу я удалил, так что не пропустите! Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы ) Начало: 06.11.2025 в 18:00 МСК Регистрация по ссылке

Смотрите также