VibeVoice от Microsoft. Это современная TTS-модель (text-to-speech, преобразование текста в речь), которая позволяет генерировать длинные аудиозаписи — например, диалоги или подкасты продолжительностью до 90 минут с участием до четырёх персонажей. Модель поддерживает русский, английский и другие языки, имитирует естественные разговоры, но пока не умеет добавлять фоновые звуки или музыку. VibeVoice доступна с открытым исходным кодом, что позволяет исследователям и разработчикам использовать её для своих проектов. Также в модель встроены механизмы защиты от неправомерного использования, например, водяные знаки в аудиофайлах и предупреждения о том, что запись сгенерирована нейросетью. Квантованная модель Large потребляет 9,5Гб VRAM Настроенная сборка ComfyUI:
🔥 Мой структурированный курс по "ComfyUI" с поддержкой на сайте
🔥 Мой структурированный курс по "AUTOMATIC 1111" с поддержкой на сайте
🔑 Все ссылки и файлы доступны на Boosty:
✔️Телеграм-канал:
✔️ Telegram ЧАТ:
✔️VK Prompts:
https://vk.com/stabledif