Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах

Краткий пересказ от YandexGPT

В Яндекс Книгах обновили виртуального рассказчика: вместо старого Tacotron внедрили более продвинутые highres-модели, которые создают естественную, разнообразную по интонациям речь и работают в реальном времени. Основой стала архитектура Tortoise, доработанная для стриминговой генерации, где ключевую роль играет WavTokenizer. Для обучения использовались большие наборы данных, многоступенчатая настройка и специальные записи голосов актёров, что позволило адаптировать синтез под разные жанры и сделать его более живым. Аналитики помогли подобрать подходящие голоса и собрать метрики, чтобы улучшать модель по качеству звука, интонациям и естественности. В итоге рассказчик способен быстро и эмоционально озвучивать более 120 000 книг, включая те, у которых нет аудиоверсий, что особенно важно для любителей аудиокниг и слабовидящих пользователей.

Перейти