voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Немного не по теме голоса, а про крипту.

Совершенно поразительная история того как на заре биткоина систематически пропадали деньги с крупнейшего криптообменника и причём здесь BTC-e и русские хакеры.

fun facts:
1. первая биржа битка - это фан-сайт какой-то игры вообще.
2. Раньше считалось что биткоин - очень анонимная сеть, но это наоборот самая прозрачная технология для транзакций. Хакеров в итоге нашли.

https://habr.com/ru/companies/ua-hosting/articles/783612/

Читать полностью…

Voice stuff

Ленни иногда выдает хорошие саммари по итогам интервью.

Читать полностью…

Voice stuff

Здравствуйте, дорогие подписчики!

Выложили на HF ускоренную модельку для удаления шумов MP-SENet. Мб потом выложим DeepFilter какой-нибудь.

https://huggingface.co/ENOT-AutoDL/MP-SENet

Читать полностью…

Voice stuff

Посвящается всем авторам ТГ каналов про Эй Ай


Я слежу что пишет сама
Знаю все про Гэ Пэ Тэ
Ворлд модели строит Сора
подпишись на мой тэ гэ

Здесь посты и много мемов
Можно слушать и читать
Будешь лучшем в мире сеток
Клоуна не ставьте блять

Когда ты станешь самым смелым
Будешь шарить, больше знать
Будет офер, много денег
Незабудь донат прислать


https://app.suno.ai/song/71d79d32-73f1-42e4-8b55-16809ebfad33

Читать полностью…

Voice stuff

Chapter 17. Algorithms by Tim Peters

if your colleagues are using, for example, C or Java, it’s not unusual for you to try and discard six different approaches in Python while they’re still getting the bugs out of their first attempt.

В целом, в главе ничего особенного нет - только информация о том что таймер на винде работает по-другому. Но интересно читать.

Tim Peters это тот, который написал Zen of Python.

https://www.oreilly.com/library/view/python-cookbook/0596001673/ch17.html

Читать полностью…

Voice stuff

Друзья, вечером в четверг, 4 апреля планируем провести в Москве очередную встречу участников нашего чата!

Забронируйте день, планируйте заранее.

Будут короткие доклады и неформальное общение.

О месте проведения и составе участников сообщим дополнительно.

Записывайтесь здесь (нам необходимо понять число участников)

https://forms.gle/aW5kBFYp2bM7MNoX9

Приглашаем участников сделать доклад на 15 минут, предлагайте тему доклада в форме.

Видео с предыдущей встречи здесь:

https://www.youtube.com/watch?v=fqt5gUnZrog

Читать полностью…

Voice stuff

Grok Open Source

Как Илон и обещал, веса грока публично доступны. Под капотом MoE модель на 314B параметров. Всё написано на JAX (почему?!) Сам код модели на полторы тысячи строк и там просто трансформер на ротационных эмбеддингах.

Кода для обучения нет, как и данных. Было бы удивительно если бы они были. Да что там, я достаточно поражён что и веса выложили!

https://github.com/xai-org/grok

Читать полностью…

Voice stuff

IWSLT 2024

The International Conference on Spoken Language Translation (IWSLT) is an annual scientific conference, associated with an open evaluation campaign on spoken language translation, where both scientific papers and system descriptions are presented.

The 21st edition of IWSLT will be run as an ELRA/ACL event and co-located with ACL 2024 in Bangkok, Thailand on 17-18 August 2024. It will be run as a hybrid event

https://iwslt.org/2024/

Читать полностью…

Voice stuff

Transformer Debugger

Tdb позволяет быстро исследовать, прежде чем нужно будет писать код, с возможностью вмешиваться в форвардный проход и видеть, как это влияет на конкретное поведение. Его можно использовать для ответа на такие вопросы, как "Почему модель выводит токен A вместо токена B для этой подсказки?" Или "Почему внимание H обращает внимание на токен T для этой подсказки?" Он делает это, выявляя конкретные компоненты (нейроны, головки внимания, латенты автокодера), которые способствуют поведению, показывая автоматически генерируемые объяснения того, что заставляет эти компоненты активироваться наиболее сильно, и отслеживая связи между компонентами, чтобы помочь обнаружить схемы.

https://github.com/openai/transformer-debugger

Читать полностью…

Voice stuff

Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context
Libriheavy is a labeled version of Librilight

https://arxiv.org/abs/2309.08105

https://github.com/k2-fsa/libriheavy

Читать полностью…

Voice stuff

Open TTS Tracker

https://github.com/Vaibhavs10/open-tts-tracker

Читать полностью…

Voice stuff

Сравнение различных схем квантования для LLM

https://habr.com/ru/articles/797443/

Читать полностью…

Voice stuff

🔠🔠🔠🔠🔠🔠🔠🛠️

Увидел в соседней группе приглашение на хакатон. Давайте доделаем langswap.app чтобы он смог стать победителем в хаке!

🎥 Задача 1: Сервис перевода и дубляжа видеоконтента
Разработайте сервис для автоматической транскрибации, перевода и дублирования развлекательного видеоконтента на английский язык. Сервис должен иметь удобный интерфейс для загрузки видео, скачивания итогового видеофайла, а также возможностью редактирования на каждом из этапов работы.

https://codenrock.com/contests/gpm-adtech-challenge#/

Пишите Коле на @NikolaiPakhtusov если хотите поучаствовать в моей команде и сразу показывайте что умеете и в чём можете быть полезными.

Читать полностью…

Voice stuff

Hallucination is Inevitable: An Innate Limitation of Large Language Models

https://arxiv.org/abs/2401.11817

Читать полностью…

Voice stuff

Everyone stars

https://github.com/hubertsiuzdak/snac

today

Читать полностью…

Voice stuff

English Anime voice dataset

https://huggingface.co/datasets/ShoukanLabs/AniSpeech

and project to finetune styletts2 using it

https://huggingface.co/ShoukanLabs/Vokan

Читать полностью…

Voice stuff

https://stability.ai/news/stable-audio-2-0

Читать полностью…

Voice stuff

Voice Stuff открывает канал на YouTube!

Сегодня в гостях Денис Петров — 15-ти летний исследователь NLP, который написал лучший расстановщик ударений для синтеза речи "RuAccent”. Лучший из открытых и тех, что мне удавалось использовать.

Вы услышите об истории создания, почему Денис решил развиваться в этой сфере, где научился программировать, как пришёл к решению задачи с ударениями. Также расскажем что под капотом у RuAccent, на каких данных обучалась, и есть ли что-то, что расставляет ударения и ё лучше, чем RuAccent.

Заваривайте чай, накладывайте покушать и приступайте к просмотру, получилось очень интересно!

На канале есть ещё видео о том как тестровать нейронные сети и про то, как добиться обучения Zero-Shot и few-shot (в лайвах)

https://www.youtube.com/watch?v=FopG1hcxSVg

Читать полностью…

Voice stuff

https://github.com/DoMusic/Hybrid-Net

Читать полностью…

Voice stuff

VoxLingua107 ECAPA-TDNN Spoken Language Identification Model

Классификатор языка. Нашёл Tarasfrompir

https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa

Читать полностью…

Voice stuff

Distil-Whisper is now more accurate, efficient and accessible 🚀

distil-large-v3 is 6x faster and within 1% WER of large-v3, with reduced hallucinations and better long-form support across all libraries

Previous Distil-Whisper models were trained on an avg audio length of 7-seconds. Predictions beyond this point were thus largely inaccurate

To preserve Whisper's ability to transcribe 30-second chunks, we added pre-processing to pack audios to 30-seconds

Repo: https://huggingface.co/distil-whisper/distil-large-v3

https://twitter.com/sanchitgandhi99/status/1770877844823896117

Читать полностью…

Voice stuff

Google Scholar search: "certainly, here is" -chatgpt -llm (🔥 Score: 150+ in 3 hours)

Link: https://readhacker.news/s/64gaF
Comments: https://readhacker.news/c/64gaF

Читать полностью…

Voice stuff

Релиз RUAccent-turbo!

1. Была добавлена новая модель Turbo.
Данная модель была обучена на 200 гб размеченных разными пайплайнами текстов. Размер модели сопоставим с medium_poetry, но качество выше big_poetry. Размер модели 80m параметров.

Метрики:
ruaccent_big -> 0.93 avg
ruaccent_turbo -> 0.95 avg

3. Отказ от собственного тяжеловесного пайплайна морфологического анализатора, в сторону проекта Ильи Козиева rupostagger.
4. Доработка пайплайна с нейросетью для расстановки ударений в обычных словах
5. Исправлены некоторые ошибки работы системы. (вылеты и т.д)

Colab: link
GitHub: link
Модель вместе с TeraTTS: link

Читать полностью…

Voice stuff

У этой группы есть ещё и свой чат, где можно найти помощь в решении аудио задачек - синтеза, распознавания. Мы иногда даже касаемся текстов. Там же можно пошуршать за новости в мире МЛ, поделиться подходами, статьями, репозиториями и даже найти работу и работников.

Заходите!
@voice_stuff_chat

Читать полностью…

Voice stuff

RUNorm и char level number tokenization

1. Немного о RUNorm

Сейчас помимо RUAccent, я начал заниматься проектом RUNorm. Данная система должна нормализовывать текст перед акцентуацией и собственно синтезом речи.
Нормализацию текстов можно подразделить на следующие подзадачи:
1. Нормализация сокращений (1990 г. -> 1990 год, г. Москва -> город. Москва)
2. Нормализация аббревиатур (ПТСР -> пэ тэ эс эр)
3. Нормализация английских слов (Microsoft -> майкрософт)
4. Нормализация чисел (в 2009 -> в две тысячи девятом)

Нормализация сокращений уже работает довольно неплохо:

:> Моя зп. всего 15 тыс. руб.
>>> Моя зарплата всего пятнадцать тысяч рублей

:> Мой адрес : г. Москва, р-н Бутово, д. 12, кв. 20
>>> Мой адрес город Москва, район Бутово, дом двенадцать, квартира двадцать

:> Я родился в 1900 г.
>>> Я родился в 1900 году.

Текущий пайплайн сейчас состоит из двух моделей - ruT5-base, bert на 3м параметров и некоторых правил взятых отсюда.

2. Как посимвольная токенизация цифр должна помочь в нормализации?

Эксперимент с решением задачи "в лоб" показал, что модель часто галлюцинирует и путает некоторые числа.
Пример таких галлюцинаций:

:> Конец света будет в 2045 г.
>>> Конец света будет в тысяча сорок пятом году.

:> В 1987 г. произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — 22,6 %
>>> В тысяча девятьсот семьдесят седьмом году произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — двадцать два целых и шесть десятых процента.

Возможное решение подобных проблем - правильная токенизация чисел.

Стандартный токенизатор модели ruT5-base работает примерно так:
:> tokenizer_orig.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁12', '.09.', '1923']

Новый токенизатор:
:> tokenizer.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁1', '2', '.', '0', '9', '.', '1', '9', '2', '3']

Доработка токенизатора очень простая, все токены являющиеся числами и длиной более 1 символа (без учета пунктуации), были заменены на "<garbage>".

Подробнее можно ознакомиться в данном ноутбуке

Для теста полученной модели была выбрана задача решения арифметических задач, т.к. датасет был под рукой и было можно обучить в короткие сроки.

По результатам тестирования были получены следующие метрики:

Arith acc digit5_ft: 0.586286056492664
Arith acc rut5_ft: 0.2418904082243737
P.S. Все тесты проводились без сэмплинга

Модель с модифицированным токенизатором ушла вперед с огромным отрывом.

Читать полностью…

Voice stuff

NaturalVoice 3

Несмотря на то, что последние крупномасштабные модели преобразования текста в речь (TTS) достигли значительного прогресса, они все еще не обладают достаточным качеством, сходством и просодией речи. Учитывая, что речь включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), которые представляют значительные трудности для генерации, естественной идеей является факторизация речи на отдельные подпространства, представляющие различные атрибуты, и генерация их по отдельности. Исходя из этого, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными диффузионными моделями для генерации естественной речи в нулевом режиме. В частности, 1) мы разрабатываем нейронный кодек с факторизованным векторным квантованием (FVQ) для разделения формы речевого сигнала на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную диффузионную модель для генерации атрибутов в каждом подпространстве по соответствующей подсказке. Благодаря такой факторизации NaturalSpeech 3 может эффективно моделировать сложную речь с рассогласованными подпространствами по принципу "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и разборчивости. Более того, мы достигаем лучших показателей при масштабировании до 1B параметров и 200K часов обучающих данных.


https://arxiv.org/abs/2403.03100

Читать полностью…

Voice stuff

Tortoise TTS

Оказывается, автор черепахи выпустил статью о ней.

Почитать можно вот тут

https://arxiv.org/abs/2305.07243

Сама моделька (постоянно обновляется!):
https://github.com/neonbjb/tortoise-tts

Читать полностью…

Voice stuff

Как читать Корейский за 15 минут

Очень люблю изучать языки и наткнулся вот на такой гайд по Корейскому.

https://www.ryanestrada.com/learntoreadkoreanin15minutes/

Бонус: русский язык
https://www.ryanestrada.com/russian/index.html

Вот бы сделать такие же для всех остальных языков 🙂

Читать полностью…

Voice stuff

Про ChatGPT/Perplexity

Побуду слоупоком. Выскажу свое мнение на тему, когда роботы заменят кожаных мешков в разработке ПО. Коротко, не скоро, но иерархию джунов-мидлов-синьоров подпилят существенно.

Пара сценариев ниже.

1. Мне нужно написать плюсовый бекенд для питона. В плюсы я умею, в питон тоже. Но вычитывать, как пользоваться питоновской библиотекой и как собирать плюсовый код долго. Спрашиваю бота, он мне сразу выдает сниппет кода для плюсового файла, говорит, что еще неплохо иметь *.pyi файл. Объясняет как собрать.

Могу я собрать копипастой? Нет. Нужно немного поправить флаги при компиляции. Нужен мне опыт или специально собираться с мыслями, чтобы разобраться, как пользоваться Python.h в плюсах. Что ж, теперь тоже нет. Эта экспертиза для базового сценария устарела.

2. Чувак спрашивает, как решить оптимизационную задачу, используя инструментарий ML. Я говорю, надо просто взять торч, и через него обсчитать градиентный спуск. Неплохо бы привести пример. Я даю промпт на три абзаца боту, где формулирую задачу. Смотрю ответ, вижу, что пенальти за нарушения ограничений идет без веса. Кидаю ему код, говорю, что вот тут бот забыл вес добавить, а ты не забудь.

Нужно мне тратить время и мыслетопливо, чтобы написать этот код? Нет. Нужна верхне-уровневая экспертиза, чтобы оценить код? По-прежнему, да.

3. При работе с новой для меня библиотекой возникают ошибки. Например, плюсы валятся с сегфолтом. Раньше я бы тратил кучу времени, чтобы отловить какой-то баг. Теперь бот сообщает мне наиболее частые причины такой ошибки.

Вывод. У меня ощущение, что верхнеуровневые/сеньорские задачи остались по прежнему актуальны. Однако, мидловая экспертиза сильно инфлирует. Т.е. мидл от джуна отличается набитой рукой и глазом, которые позволяют быстро написать работающий код или отловить хитрый баг. Теперь же джун с умным ботом будет доходить до кондиции мидла существенно быстрее.

Единственный ограничений, что умный бот должен иметь доступ к базе знаний мидла. Для открытых знаний это работает. Для внутренних, по мере проникновения корпоративных решений. Собственно, отличная бизнес-модель для всяких поисковиков типа перплексити.

Читать полностью…

Voice stuff

LLM от Google в open-source 😍

Google выпустила 7B и 2B instruct-модельки в открытый доступ. обещают по качеству порвать LLAMA-2 в клочья.

MMLU у Mixtral-8x7B ~= LLAMA 2 70B = 70%. При том что эти модели в 8-10 раз больше.

Пресс-Релиз:
https://blog.google/technology/developers/gemma-open-models/

Huggingface:
https://huggingface.co/google/gemma-7b-it

Читать полностью…
Subscribe to a channel