voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Напоминаю что завтра ровно в 12:00 я выступаю на DataFest с докладом о том как сделать хороший синтез речи дешевле. Приходите послушать!

Читать полностью…

Voice stuff

В новый айпад запихнули RTX 3090 и OLED дисплей

При этом он какой-то невероятно тонкий. 3090 - это если сравнить флопсы c M4.

Приложений всё ещё не завезли из-за жадного App Store. Обязательно сообщу вам когда айпадом можно будет пользоваться нам, работягам. Пока всё ещё нет.

Действительно тонко)))))

Читать полностью…

Voice stuff

RUNorm v1 - открытый русскоязычный нормализатор текста перед TTS.


Примерно месяц назад был открытый бета-тест RUNorm в телеграм-боте. С этого момента было много экспериментов с тэггером и нормализатором. Отдельная модель для нормализации чисел была удалена.

Был обновлен набор моделей, теперь их 3:
- RUNorm_big (FRED-T5_LARGE 860M параметров)
- RUNorm_medium (ruT5-base 222M параметров)
- RUNorm_small (FRED-T5-95M. Дистиллят большой модели. 95M параметров)


Как и на чем обучались модели?

Изначально, датасет состоял из очень грязных данных, частично написанных руками, частично размеченных chatGPT. После, был обучен FRED-T5-1.7B. Потом взял большой текстовый датасет (pikabu) и регуляркой вытащил предложения, где предположительно должны быть сокращения и прогнал через этого фреда.

Идея пайплайна для чисел была взята отсюда, но с небольшими доработками, в виде нормализации чисел еще до подачи в модель. Таким образом, модели не обязательно знать, как число перевести в текст, остается только склонить.

Модель для английских слов училась транслитерировать небольшие последовательности из разных английских слов в русские. Датасет также полусинтетический, часть размечена руками, часть взята из датасета с соревы от гугла на каггле, часть размечена chatGPT.

За основу датасета модели-тэггер был взят тот же с соревы гугла по нормализации текста, но с небольшим обогащением сокращениями.


Модели можно потыкать тут: ссылка
GitHub: ссылка

P.S Возможна некоторая деградация качества для больших чисел, постараюсь поправить в будущих релизах.

@den4ikresearch

Читать полностью…

Voice stuff

https://x.com/taras_y_sereda/status/1786727753200410833?s=46&t=7jwH29MvU0R301CgvqVBYw

Читать полностью…

Voice stuff

RUPunct v1 - Набор моделей для расстановки знаков препинания


В опенсурсе не так много моделей для расстановки знаков препинания. Самые популярные - SbertPuncCase от kontur-ai, Silero_te от команды Silero и Rubert Punc. У них есть четыре недостатка: большой размер (SbertPuncCase), низкое качество (Silero), использование очень тяжёлых фреймворков, таких как Nemo (Rubert Punc) и малый охват знаков препинания (SbertPuncCase)


Результат своих попыток сделать что-то лучше я решил выложить в открытый доступ.

На данный момент доступны 3 модели:

- RUPunct_big (178M параметров)
- RUPunct_medium (60M параметров)
- RUPunct_small (30M параметров)

Метрики и сравнения с другими моделями вы можете видеть на прикреплённых скриншотах.

Обучались модели на датасете состоящим из:

- Новости
- Книги
- Wikipedia
- Сказки Стенограммы записей из Госдумы

Общий размер датасета - 4ГБ.


Скрипты обучения, разметки, датасеты будут выложены с выходом статьи на Хабре.

Модели можете потыкать тут: ссылка
Ссылка на аккаунт со всеми моделями: ссылка

@den4ikresearch

Читать полностью…

Voice stuff

И там ещё Instruct модели на 270М параметров подъехали от эпла

https://huggingface.co/apple/OpenELM-270M-Instruct

Читать полностью…

Voice stuff

Diffusion Models for Video Generation

Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.

Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели

@ai_newz

Читать полностью…

Voice stuff

VoiceCraft released 830M model

https://huggingface.co/pyp1/VoiceCraft_830M_TTSEnhanced

Читать полностью…

Voice stuff

Triton inference server для OpenAI Whisper

Я продолжаю медленно, но верно публиковать код, который был в langswap.app . Вот ещё одна частичка инфраструктуры - распознвалка речи, завёрнутая в triton.

Зачем нужен Triton?
Triton сильно ускоряет инференс моделей, так как написан на C++. Это просто сервер, который быстро работает. Второй плюс - если у вас моделька в onnx/tensorrt, то серверная часть не будет тянуть за собой питон. Но это в теории.

Как устроено?
Triton server поддерживает определённую структуру папок и несколько форматов сериализации моделей. PyTorch - один из них.

Чтобы запустить тритон, нужно положить модель в папку

model_repository/model_name/version/your_model.onnx

Версия может быть только номером.
model_name - любая строка
model_repository - рекомендуемое название папки с моделями.

Потом нужно положить .pbtxt файл в папку model_name. Он будет описывать какие входы и выходы у модели.


Потом запускается докер с тритоном и указывается путь к вашей model_repository. На этом настройка заканчивается.

Вот пример из докера
https://github.com/langswap-app/whisper-triton-wrapper/blob/283086ae913cb3fa084304d3d263ee287ababbab/Dockerfile#L23

Инференс

Для инференса можно использовать как HTTP, так и GRPC API. Можно отправлять запросы через curl, а можно через библиотеку tritonclient. Там нужно пересказать protobuf-файл и подать на входы нужные тензоры. В целом, по protobuf-файлу ChatGPT отлично пишет клиентов.

Пример: https://github.com/langswap-app/whisper-triton-wrapper/blob/main/triton-client/tts_client/asr_client.py


Репозиторий целиком:
https://github.com/langswap-app/whisper-triton-wrapper

Ветка с faster-whisper
https://github.com/langswap-app/whisper-triton-wrapper/tree/faster-whisper

Ставьте звёздочки, пишите issues и pull-requests - я их обязательно рассмотрю и добавлю.

Читать полностью…

Voice stuff

Introducing Meta Llama 3: The most capable openly available LLM to date

Выпустили новую ллмку. Качайте веса 🙂

https://ai.meta.com/blog/meta-llama-3/

Читать полностью…

Voice stuff

Открытый бета-тест RUNorm


Последние несколько месяцев я работал над библитекой нормализации текста перед TTS.

> Зачем это нужно?

В текстах есть много различных моментов, которые стандартный синтезатор речи не озвучит:

1. Сокращения. Помимо сокращений имеющие одно значение (например "т.д" - так далее), есть и многозначные "г." (город или год)
2. Числа. Числа также нужно озвучивать по-разному, в зависимости от контекста. Например, "В школе у меня одни 5" можно озвучить как "В школе у меня одни пять/пятёрки", а "Живу на 5 этаже" надо озвучить как "Живу на пятом этаже"
3. Английские слова. "Котики кушали whiskas" -> "Котики кушали вискас/уискас"

И это самая малая часть. Есть и номера телефонов, номера банковских карт, валюты

> Как работает у меня?

Либа состоит из 5 частей:

1. Рулового пайплайна
2. Нормализатора английских слов
3. Нормализатора чисел
4. Нормализатора сокращений
5. Тэггера, который помечает сокращения

Сначала руловый пайплайн нормализует валюты и номера телефонов, после чего нормализуются числа и английские слова. Далее, текст отправляется в тэггер и нормализатор сокращений.

Подробный рассказ будет в длиннопосте, с релизом.


Вы можете протестировать бета-версию в телеграм-боте: @runorm_bot.
Буду благодарен за фидбек в комментариях

@den4ikresearch

Читать полностью…

Voice stuff

📚Tutorial on Diffusion Models for Imaging and Vision

В копилку к посту с туториалами и блогпостами по Диффузионным Моделям, принес вам еще свежий туториал на 50 стр из Purdue University.

Полезная штука для всех начинающих с диффузией. Туториал включает базу по VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам.

📖 Pdf

#ликбез

@ai_newz

Читать полностью…

Voice stuff

Stanford перезапускает курс по трансформерам!

https://x.com/stevenyfeng/status/1775972154938659184?s=46&t=94BOoxerM0AX8_uijdoGyA

Для тех, у кого не открывается твиттер, вот текст:

We are bringing back Stanford's CS 25 Transformers Course (cs25.stanford.edu) for Spring 2024! This is one of @Stanford's hottest seminar courses. We are opening the course through Zoom to the public. Lectures start today (Thursdays), 4:30-5:50pm PDT, at stanford.zoom.us/j/99922151759?…. Talks will be recorded and released ~2 weeks after each.

Each week, we invite folks at the forefront of Transformers research to discuss the latest breakthroughs, from LLM architectures like GPT and Gemini to creative use cases in generating art (e.g. DALL-E and Sora), biology and neuroscience applications, robotics, and so forth!

CS25 has become one of Stanford's hottest and most exciting seminar courses.

Our class has an incredibly popular reception within and outside Stanford, and around 1 million total views on YouTube https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM Our class with @karpathy was the second most popular YouTube video https://www.youtube.com/watch?v=XfpMkf4rD6E uploaded by Stanford in 2023 with over 500k views!

We have significant improvements this time, including a large lecture hall, professional recording and livestreaming, and so forth. Also, livestreaming and auditing are available to all. Feel free to audit in person or by joining the Zoom livestream.

discord.gg/2vE7gbsjzA


More details: cs25.stanford.edu

Читать полностью…

Voice stuff

Аудиоэнкодер на 240М параметров от команды Prod ML SberDevices — берите и пользуйтесь :)
Ребята также затюнили его на задачи распознавания речи и распознавания эмоций. Получилось лучше других открытых моделей.

Хабр: https://habr.com/ru/companies/sberdevices/articles/805569/
GitHub: https://github.com/salute-developers/GigaAM/
GitVerse: https://gitverse.ru/GigaTeam/GigaAM
Анонс на YouTube: https://www.youtube.com/watch?v=ktO4Mx6UMNk&list=PLJU_M19giWaHcqm7mVWuankpQwSgvR-CQ&index=4

Читать полностью…

Voice stuff

Какой может быть новая Siri?

Вышел пейпер от Apple про их новую модель ReALM. Я недавно писал про то, как Bloomberg пытались тренировать свою модель, и то, как у них это не получилось. Но Apple доказали, что при грамотном тюнинге даже ну ооочень маленькой моделью в 80М можно догнать или даже обогнать флагманские LLM а определенных задачах.

Так вот, новая Siri обещает очень ловко справляться с UI. А учитывая тот факт, что Apple – это крупнейшая экосистема, то у Siri будет доступ ко всему, что вам может понадобиться. От голосового управления календарём до составления плейлистов в iTunes (но пока это все фантазии).

Вообще, в статье описывается интересный метод для взаимодействия LLM с UI. На вход принимаются скриншоты, и с них в тупую собирается весь текст. Далее текст идет на анализ в LLM, и та, основываясь на инпуте юзера и тексте с экрана, решает, что делать и как отвечать.

Пока нет прямого управления UI, чтобы агент прям сам запускал какую-то работу в приложении. В статье пока только примеры того, как модель собирает информацию с экрана и выводит релевантный ответ. Например, собирает адреса с сайта, который сейчас на экране. Суть в том, что потом это можно будет использовать для таких запросов, типа: "Напиши второму в этом списке контактов, что созвон в 14:00". Пока они учат понимать, что происходит на экране.

Очень жду крутые анонсы WWDC в июне!

Пейпер

@ai_newz

Читать полностью…

Voice stuff

You Only Cache once

У трансформеров есть беда с потреблением памяти на длинных контекстах. Карта attention это квадрат от длины входа. В Майкрософт предлложили как сделать модель О(1) по памяти и скорости инференса. И ограничения по длине контекста тоже уходят в небытие. Надо сказать что результаты многообещающие.

https://arxiv.org/abs/2405.05254
https://github.com/microsoft/unilm/tree/master/YOCO

Читать полностью…

Voice stuff

Кто-то хочет в СФ на хакатон по ЛЛаМе от Меты? Это уже на следующей неделе 🤖

https://partiful.com/e/p5bNF0WkDd1n7JYs3m0A

Читать полностью…

Voice stuff

Introducing google vids

Гугл представила новый инструмент для создания видео из презентаций. Довольно симпатичный и интересный. Эх, скоро все будем клепать красивые видосики!

https://youtu.be/4SCjXcBeW1E?si=GaMBkzNMlMkzfFOI

Читать полностью…

Voice stuff

Увидел Силеро в бильярдной 🎱

Читать полностью…

Voice stuff

Department of Homeland Security сказал что вот эти люди будут решать что может знать AI, а что не может.

Кто-нибудь знает что тут делает CEO авиалиний?)

Читать полностью…

Voice stuff

Люди в Твиттере: если вы посмотрите на левый угол его глаза, радужка расходится, а также световой рисунок не согласуется. Это ИИ.
Люди на Фейсбуке после того, как увидели питбуля, молящегося в церкви с крыльями: Аминь 🙏 как вы научили свою собаку делать это, пришлите советы 🕊

Читать полностью…

Voice stuff

На huggingface вышли диаризаторы 👀

https://github.com/huggingface/diarizers

Читать полностью…

Voice stuff

Сейчас пользуюсь вот этим денойзером. Он супер.

https://github.com/yxlu-0102/MP-SENet

Читать полностью…

Voice stuff

Чего не хватает в синтезе речи?

На днях я тут увлёкся генерацией картинок и был поражён тем, насколько огромное коммюнити у стабильной диффузии. Тут вам и web UI не только для генерации, но и для файнтюна Stable Diffusion. Причём сразу с LoRA, со всеми шедулерами, с заполнением промпта. Это примерно то, чего у нас в обработке речи даже с поиском по гитхабу не всегда найдёшь.

И вот вам прецедент: ко мне в компанию наняли автора с civit.ai без технического бекграунда. Парень пришёл из живописи к нам.

Так вот, чего нам не хватает в синтезе? Не хватает этих вот WebUI, которые дают обучить свою XTTS на 20 семплах своей речи и скопировать какой-то дикий стиль из игры. И кучи ютюб видео, которые объясняют как это дело запустить на микроволновке.

Читать полностью…

Voice stuff

Microsoft показал нейронку 🏺VASA:

Даете ей на вход фото и аудио дорожку, а на выходе получаете слишком реалистичное видео, которое в очередной раз перепугает половину интернета ☕️

Кода пока нет, больше примеров тут:
https://www.microsoft.com/en-us/research/project/vasa-1/

Читать полностью…

Voice stuff

Zero shot learning - обучение без данных или когда их очень мало. Презентация

Контрастное обучение, обучение метрики, обучение по примеру и обучение на маленьком количестве примеров. Что это за слова и как их использовать чтобы сделать нейросети лучше. Выступление было подготовлено для ProIT Fest далёким летом 2023.

Таймкоды:
00:10 Начало
02:54 Небольшое введение в нейросети
07:32 Слабые стороны Нейросетей
8:45 Идея Zero-shot learning
12:35 Metric Learning
14:40 Контрастное обучение
17:50 CLIP
26:40 Верификация по голосу
29:56 d-vector
32:10 Клонирование речи
33:45 Masked Zero Shot Learning
36:46 Вопросы и ответы

https://youtu.be/tZOoTjj-zdI

Читать полностью…

Voice stuff

Idea is relevant. Results are somewhat mixed.

https://arxiv.org/abs/2404.06714

Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness

Xincan Feng, Akifumi Yoshimoto

Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.

Читать полностью…

Voice stuff

Вышла Parler TTS демо (веса, код, промпт)

Помните пост про генерацию TTS с заданными параметрами и, может быть, помните пост про MusicGen? Это вот все от них пошло.

🐢Для чего можно юзать? 🐢
- прогнать по параметрам исходную речь, прогнать сгенерированную - сравнить
- прогнать на весь датасет - отфильтровать странные семплы

Выкатили код и демо. Сказать честно, демо хорошее на чирипукнутых, а вот на мой промт: "A female speaker with a very high-pitched voice, the speech is very fast. The speaker is sad. She even cries." получила какую-то веселую девушку с нормальными даже низким питчем. Сейчас доступно только пару параметров (pitch, snr, speaker rate, reverbation).

Читать полностью…

Voice stuff

WavLLM

https://arxiv.org/abs/2404.00656

https://github.com/microsoft/SpeechT5/tree/main/WavLLM

Читать полностью…

Voice stuff

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

https://arxiv.org/abs/2404.02258

Читать полностью…
Subscribe to a channel