Прогресс в русскоязычном синтезе речи замедляется. Нужны масштабные публичные датасеты. Чтобы восполнить этот пробел, группа энтузиастов опубликовала самый большой на сегодня корпус чистой русской речи, который содержит 4700 часов аудио из открытых источников. Денис Петров, старший аудио-ML-инженер в Audio2Midi, разобрал пайплайн датасета: нормализацию аудио, разделение речи и шума, диаризацию, сегментацию, автоматическую фильтрацию качества и транскрипцию.