Telegram-канал toshoseti - То шо нейросети: Unsorted

То шо нейросети

27 April 2025 19:50

То шо нейросети

27 April 2025 15:59

Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!

Что внутри Dia ✨

Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Descript.

Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.

Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.

Финальный этап — Descript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.

Как научить Dia русскому 📖

По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Descript-кодек трогать не надо — он уже умеет восстанавливать волну.

Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.

Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.