Как сделать большой датасет для русского TTS с минимумом ресурсов

22 октября 2025

Прогресс в русскоязычном синтезе речи замедляется. Нужны масштабные публичные датасеты. Чтобы восполнить этот пробел, группа энтузиастов опубликовала самый большой на сегодня корпус чистой русской речи, который содержит 4700 часов аудио из открытых источников. Денис Петров, старший аудио-ML-инженер в Audio2Midi, разобрал пайплайн датасета: нормализацию аудио, разделение речи и шума, диаризацию, сегментацию, автоматическую фильтрацию качества и транскрипцию.

Авторы

Денис Петров

Яндекс Образование — Личный кабинет

Как сделать большой датасет для русского TTS с минимумом ресурсов

Ещё по теме

Компьютерное зрение в 2025-м / Роман Исаченко

Тренды в NLP, обзор ICLR и ACL / Александр Юшкевич

Голосовые технологии на Interspeech и ICASSP 2025 / Борис Шелудько

Главные тренды рекомендательных систем / Николай Савушкин

Открытие ML Global Recap 2025 / Алексей Гусаков

LLM/ML для генерации и персонализации коммуникаций в CRM / Василий Бронский и Александр Безуглый

Что такое ML-аналитика, или Как измерить качество LLM-продуктов / Таймураз Тибилов

Как нейросети режут сегменты лучше кухонного ножа / Никита Алексейчук и Никита Мастюгин

YaC 2025 AI Edition

Insightus: ваш партнёр — AI-аналитик. Архитектура, сложности, потенциал / Константин Бабалян

Компьютерное зрение в 2025-м / Роман Исаченко

Тренды в NLP, обзор ICLR и ACL / Александр Юшкевич

Голосовые технологии на Interspeech и ICASSP 2025 / Борис Шелудько