Telegram-канал grokaem_seby - grokaem себя: Unsorted

grokaem себя

15 Oct 2024 13:42

про alignment в tts

Если в текстах мы работаем всегда в одной модальности, то с речью у нас две последовательности (аудио aka спектрограмма и текст). Прямого соотношения между которыми - нет. Попробуйте взять любую спектрограмму и сказать, где какая фонема звучит. Именно на задаче alignment и сделаем фокус.

И тут мне нравится мысль из небезызвестного ТРИЗ о стадиях идеального объекта:

🧩
«Система сама выполняет эту функцию»
«Системы нет, а ее функции выполняются»
«Функция вообще не нужна»
🧩

Эта же концепция перекликается с мыслью о постоянной накопленной ошибке мультиступенчатых систем. Если мы посмотрим на развитие TTS систем не с самых раних времен, то как раз и будем следовать стадиям развития системы.

Важная заметка на полях, здесь я не разделяю NAR и AR системы, however мы можем сказать, что в AR alignment проблема может решаться относительно легче.

Система: модель или алгоритм.
Задача системы: сделать идеальное соответствие между спетрограммой и текстом.

1️⃣Стадия 1: система существует.
Glow-TTS (11.2020), модель на основе flow-matching. В ней предложили monotonic alignment (система) - алгоритм на основе концепции динамического программирования со сложностью O(T_text * T_mel). Сильно, да? В общем и целом он должен занимать примерно 2% времени обучения. Нехило. Важно, что кроме самой системы при тренировки, нам нужен еще и duration predictor на инференсе. В том же VITS, MatchaTTS также используется monotonic alignment.

Совсем недавно его улучшили с super monotonic alignment search, но не поздняк ли уже метаться?

Сюда же я осмелюсь отнести FastSpeech 2 с duration predictor в сравнении с golden MFA (Montreal Forced Alignment).

2️⃣Стадия 2: системы нет.
Позволю себе упрощение: критерием, что системы нет можно считать, что отсутствует отдельная функция потерь. Если в том же FastSpeech 2 мы добавляли отдельный блок для duration, то в более старом Tacotron 2 у нас был location sensitive attention, никаких таргетов. Для TTS систем это удобно, так как мы априорно знаем, что зависимости монотонны (мы не можем сказать фонему n, ссылаясь на фонему n + k). Тот же nvidia в этом году стрехнули пыль с FastSpeech 2 в статье T5TTS , ссылаясь на advantages in seq-seq transformer based models и добавили prior "regularization" на cross-attention, чтобы сделать его монотонным. Однако у них мы можем сказать, что система все таки существует, так как поверх они добавляют CTCLoss, чтобы поддерживать мотонность alignment'а.

И в этом моменте вспоминаем, что все это время мы надеялись на какой-то external алгоритм, который скажет как правильно. Но доподлинно правильно мы не знаем как. Может ну его тогда?

3️⃣Стадия 3: функция вообще не нужна.
А что если вообще не думать о проблеме? Именно это и сделали в Embarassingly Easy TTS. Мы не затроним сегодня flow matching часть, это объемная тема. Что они сделали с alignment? Особо не парились: берем c - characters transcription размерности M. Берем наш mel-filter bank features размерности T. И просто добавляем к (T-M) filler tokens до полной T длины. А что так можно было? Похоже да. Мы оставили текст таким какой он есть, не растягивали, не дублировали, не делали буквально ничего. Наверное можно ждать много статей по ablation studies такого подхода и анализ attention у трансформера, как это было с подходами у T5TTS. По этому же подходу пошли F5TTS, которые только тренируют на diffusion.

Как и всегда, жду ваши поправки и комментарии❤️

#grokaem_audio