voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Моделирование дискретной диффузии

Увидел у @teraspace_news новость, что он завёл синтез речи на дискретной диффузии. Начал гуглить как это вообще реализовано. Наткнулся на вот такую статью. Прошу обратить внимание на примеры генерации, которые авторы приводят. Это довольно сильное улучшение по связности текста!

https://arxiv.org/abs/2310.16834

Читать полностью…

Voice stuff

Зачем использовать дискретные единицы в синтезе речи

Новый блогпост от Николая Шмырёва, который, как минимум, убедил меня что распределение длин фонем - это не гауссово распределение. Это очень смелая и крутая идея.

Сами доклады, указанные в статье, разумеется про вообще дискретные представления речи, чем про длительности, но я заинтригован именно длинами фонем. Как человек ковырявший duration predictorы, могу подтвердить что гауссианы плохо ложатся на распределение длинн.

Ждём примеров, Николай!

https://alphacephei.com/nsh/2025/01/12/discrete-units.html

Читать полностью…

Voice stuff

Titans: Learning to Memorize at Test Time

We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information.

Очень подробная и понятная статья от Google на тему того как сделать контекст в рекуррентных сетях намного длиннее, чем он сейчас. По их тестам, результаты очень хорошие. Сравнивают чаще всего с мамбой.

Я ещё не дочитал. Если у кого будут обзоры - пишите в комментариях.

https://arxiv.org/abs/2501.00663v1

Читать полностью…

Voice stuff

Аудио семплы интригующие

https://x.com/reach_vb/status/1877773277571014882/mediaviewer

Заявлено что можно обучать всего на 80 часах голоса.

80М параметров

https://huggingface.co/hexgrad/Kokoro-82M

Читать полностью…

Voice stuff

ДЕКАБРЬ 2024

🎄Audio 🎄
1. Transformer-based audio autoencoder
2. Gemini сделали эмоциональный контекстуальный audio output
3. Streaming TTS CozyVoice
4. FishAudio 1.5
5. kits.ai singing voice conversion

🎄NLP🎄
1. Byte-latent transformer
2. Large Concept Model от meta
3. ModernBert
4. Маленький курс от HF про маленькие llmки и их использование

🎄Другое🎄
1. Монография для reinforcement learning
2. Классный список техник advanced DL
3. Куча ресурсов для foundation models

Читать полностью…

Voice stuff

Plots Unlock Time-Series Understanding in Multimodal Models (3 Oct 2024)
arxiv | blog

TL;DR
Гугл на серьёзных щщах выпустил “rigorous empirical evaluation” того, что мультимодальные LLM умеют в reasoning про временные ряды - если представить ряды графиками и рассуждать про заметные на глаз параметры. И чем больше модель, тем лучше она справляется с таким reasoning (сравнивались GPT-4o vs GPT-4o-mini vs Gemini Pro 1.5 vs Gemini Flash 1.5).

Важность представления данных
Фишка статьи в том, что используются достаточно простые фичи вроде тренда и сезональности, а входные данные подаются в модель как картинки (графики). По сравнению с представлением рядов в виде текста (CSV), представление в виде картинок даёт заметный прирост точности ризонинга модели для этих заметных на глаз параметров. “Заметность на глаз” здесь важна, так как люди придумали графики именно для того, чтобы делать эти параметры видными на глаз. Хорошо, что это работает так же и для LLM, но единственный вывод из этого - чем нагляднее мы представляем фичи входных данных, тем проще модели про них рассуждать. Очевидный следующий шаг - “а как нам наглядно представлять больше важных фич?” - в статье не упоминается 😐

Важность экономии токенов при работе с рядами
Кроме этого, в статье обсуждается ещё один важный аргумент в пользу использования специализированного энкодера для временных рядов - экономия на токенах. D реальной жизни ряды обычно длинные и широкие (т.е. многоразмерные), и на токенизацию их текстового представления уходит десятки и сотни тысяч токенов. Это создаёт проблему не только со стоимостью, но и с ограничениями длины контекста модели. Использование отдельного энкодера позволяет представлять ряд любой длины в виде набора эмбеддингов существенно меньшей, а то и фиксированной длины.

Читать полностью…

Voice stuff

Короче нет в Китае никакого социального рейтинга. А камеры они понатыкали потому что всего 5 лет назад мелкая преступность была через край. Аккумуляторы в мотоциклах крали чаще всего.

Помню все бухтят на то что из-за (несуществующего) социального рейтинга нельзя дорогу переходить в неположенном месте иначе тебе отключат оплату в приложении и нельзя будет из дома выходить. Ну какой сюр.

Рассказываю. Между мной и таксистом забор в аэропорту. Он мне показывает мол "перелезай". Я перелез.

Еду ночью в такси 120км/ч по пустой дороге где 60км/ч. Нас обгоняет BMW.

По городу машину постоянно подрезают китайцы на скутерах, потому что им не нужны права. Скутеристы могут ехать прямо ночью по встречке через шоссе, потому что так короче. Азия.

Когда закончилась парковка, мы припарковали машину на каком-то тротуаре в тупике. На следующий день там поставили конусы. Конусы мы убрали и припарковались ещё раз.

Утром мы переходим дорогу прямо сквозь машины чтобы зайти в кафешку.

Перед великой китайской стено везде таблички "на дронах не летать". Мы зарегистрировали мой дрон в реестре и спокойно полетали.

Люди всё-таки везде люди. И камеры тут ни при чём.

Читать полностью…

Voice stuff

Видео модель от гугла

Поиграться тут

https://deepmind.google/technologies/veo/veo-2/

Читать полностью…

Voice stuff

Вышла Phi-4 от Microsoft

Метрики обещают выше крыши

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%e2%80%99s-newest-small-language-model-specializing-in-comple/4357090

Читать полностью…

Voice stuff

Text to video от Tencent (Hunyuan)

Моделька с очень и очень внушительным качеством генерации. В комментарии приложу схему архитектуры.

В твиттере говорят что она разносит Сору в щепки по качеству, при том опен сорсная. В то же время, пока ребята выпустили модель, OpenAI уже выпустили целый продукт с платящими клиентами и хайпом во всех возможных соцсетях. Так что тут не так очевидно кто на самом деле впереди.

https://github.com/Tencent/HunyuanVideo

Читать полностью…

Voice stuff

Sora запустили!

Ура! Пока что войти в аккаунт у меня не получилось, но видимо скоро получится.

Под капотом там редактор видео, который позволяет связывать разные видео друг с другом переходами и генерировать новые. Он же подсказывает промпт для новых видео. Такой довольно полноценный тул для создания контента.

Сора сразу генерит по несколько видео чтобы можно было выбирать более подходящие.

Обещают генерить по 20 секунд видео в 1080p. Что очень много относительно конкуренции! Ориентации и вертикальная и горизонтальная и квадрат.

Кстати, для кино вам почти не нужны сцены длинее 20 секунд. Но нужно чтобы они были связными как-то.

По анонсу мне нравится что у коней и мамонтов по 4 ноги и они довольно стабильны в генерации не улетают из реальности сильно.

Доступ по подписке. Подписка за $20 даёт доступ к 50 генерациям, а за $200 к неограниченным, из которых 500 будут быстрые.

Анонс:
https://www.youtube.com/live/2jKVx2vyZOY?si=NXlVcveArUfms9gc

сайт:
sora.com

Читать полностью…

Voice stuff

Датасеты для обучения TTS на русском языке

Чистые данные:
Natasha (https://sova.ai/dataset/)
Ruslan
Russian Libri Speech https://www.openslr.org/96/
CSS10 https://github.com/Kyubyong/css10

Средне-чистые данные:
https://github.com/GeorgeFedoseev/DeepSpeech
https://github.com/ishine/open_tts

Сырые данные. Обычно подходят для распознавания речи
https://commonvoice.mozilla.org/ru/datasets
https://huggingface.co/datasets/SberDevices/Golos
https://github.com/snakers4/open_stt (overlaps with open_tts data)

Это не исчерпывающий список. Если вы знаете какие-то ещё датасеты - напишите, пожалуйста о них в комментариях. Я добавлю их в пост.

Подсказали в комментариях:
https://huggingface.co/Rootreck

Читать полностью…

Voice stuff

Датасет, на котором обучена F5-TTS. Правда, они использовали только английский и китайский. Я редко вижу датасеты такого объёма в одной упаковке, размеченные и чистые. Пользуйтесь на здоровье.

https://huggingface.co/datasets/amphion/Emilia-Dataset/

Читать полностью…

Voice stuff

Кто знает какие есть удачные открытые модели для перевода текстов? Хочется по качеству чтобы было как deepl/google translate. Надеюсь я не слишком многого хочу.

Нужно чтобы были веса. Ограничения на размер - должно влезть на 24Гб карточку. Но скидывайте всё подряд, я разберусь что потянет, а что нет.

Из того что я пробовал - Seamless M4T. Очень слабый.

И чтобы два раза не ходить. Модели для липсинка тоже посоветуйте пожалуйста. Очень нужны. Сервисы с API тоже подойдут.

Читать полностью…

Voice stuff

Паблики фейсбука тоже открыли для себя txt2vid технологии ☕️

Читать полностью…

Voice stuff

FLUX

Кто-нибудь может мне рассказать почему FLUX настолько хорош?

Вот что именно было сделано при обучении, что получилось такое качество? Pic related.

Компании 2 месяца (они все выходцы из Stability.ai) и они выпускают модель, которая делает фотореалистичные фотографии, не ломается на пальцах и стилистически обскакивает всё что есть. На ровном месте, без бренд истории, FLUX становится самой популярной моделью по генерации изображений в мире.

При этом сама Stability, выпустив и SD3 и SD3.5, так и не догнала ни по фотореалистичности ни по качеству FLUX. При этом, как я понимаю, архитектурно SD3.5 будет чуть более нова.

Мне нужно знать их секреты 🤔 Пишите и в комментарии, и на @frappuccino_o

Читать полностью…

Voice stuff

Расскажите какие применения вы нашли новому режиму "задач" у ChatGPT. Я пока что будильник не стал бы доверять. Не до конца понимаю вообще сферу применения.

Читать полностью…

Voice stuff

Спам в телеграме

По итогам эксперимента, с момента как я включил “Агрессивный анти-спам” в телеграме, у меня было ровно 0 новых спам-комментариев. Прошёл где-то месяц. До этого было где-то по парочке в неделю.

Поэтому, не вижу причин не включать его в настройках.

Как включить:
С телефона заходим в настроки группы -> Администраторы -> Агрессивный Анти-Спам.
Важно зайти с телефона. В приложении для Mac кнопки я не нашёл.

Читать полностью…

Voice stuff

Это был missing semester и моего университета 😅

Schedule
1/13/20
: Course overview + the shell
1/14/20: Shell Tools and Scripting
1/15/20: Editors (Vim)
1/16/20: Data Wrangling
1/21/20: Command-line Environment
1/22/20: Version Control (Git)
1/23/20: Debugging and Profiling
1/27/20: Metaprogramming
1/28/20: Security and Cryptography
1/29/20: Potpourri
1/30/20: Q&A


https://missing.csail.mit.edu

Читать полностью…

Voice stuff

Nvidia news
Наконец-то вышла 5090.

32гб оперативки
~в 2 раза быстрее 4090
Стоит $2000. Релиз 30 января.

https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/

И это был бы уже хороший анонс, но в самом конце выступления

https://www.youtube.com/live/k82RwXqZHY8?si=bvn_kwLWpjtBvBxy

Представили мини-пк с 20 ядрами и 128Гб смешанной памяти и кучей, целым 1PetaFLOPS fp4 компьюта. Сам Дженсен называет его суперкомпьютером и обещает что новый комп будет поддерживать весь стек Nvidia DGX - можно легко объединять несколько таких компьютеров в вычислительный кластер.

Назвали Nvidia Project Digits и просят всего $3000 за такую радость. Релиз в Мае.

https://www.nvidia.com/en-us/project-digits/

У меня осталось впечатление будто Project Digits будет мощнее чем 5090 для AI вычислений. По крайней мере, у него будет больше памяти для них.

Если всё так хорошо, как это обещает Хуанг, то кажется новой машинкой для потребительского AI станет не 5090, а как раз этот маленький кирпичик.

Читать полностью…

Voice stuff

Как вы там, подвели уже 🔠🔠🔠🔠🔠 🔠🔠🔠🔠?

Присылайте фотку своего новогоднего стола в комментарии.

Читать полностью…

Voice stuff

Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.

Читать полностью…

Voice stuff

Помните Gemini? Теперь их модели занимают первое место в LMSYS LLM Arena. Отдельное почтение за понимание картинок. Это первая модель, которая стабильно отличает крупный кадр от общего кадра.

Читать полностью…

Voice stuff

Трейдер с личными убытками в ~$1,2 млн за этот год ищет на Reddit для заключения долгого и счастливого брака кого-то с доходами от трейдинга >$1 млн за этот же год, чтобы уменьшить налогооблагаемую базу и разделить выгоду.

@buzko_hub

Читать полностью…

Voice stuff

🆕 [HF Models] nvidia - nvidia/mel-codec-44khz


https://huggingface.co/nvidia/mel-codec-44khz


🆕 [HF Models] nvidia - nvidia/mel-codec-22khz


https://huggingface.co/nvidia/mel-codec-22khz


🆕 [HF Models] nvidia - nvidia/audio-codec-44khz


https://huggingface.co/nvidia/audio-codec-44khz

Читать полностью…

Voice stuff

Оптимизация генеративных нейросетей - это просто!

Держите курсы, которые я собираюсь прочитать, прослушать и пролистать в ближайшем будущем

Видеокурсы:
https://geometry.cs.ucl.ac.uk/courses/diffusion4ContentCreation_sigg24/

https://mhsung.github.io/kaist-cs492d-fall-2024/


Блогпосты:
https://yang-song.net/blog/2021/score/

https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

Архив:

https://arxiv.org/abs/2406.08929

https://arxiv.org/abs/2208.11970

https://arxiv.org/abs/2403.18103

Читать полностью…

Voice stuff

Марков очень часто напоминал вот это:

суть идеи Тьюринга: его тест — это не тест на способность обманывать кого-либо, а тест на способность системы ИИ выполнять ВСЕ задачи, подвластные человеческому разуму


Кажется, что тест Тюринга имеет столько же общего с обманом человека, сколько кот Шрёдингера имеет общего с убийством котов. Оба эксперимента чисто гипотетические были сделаны чтобы объяснить что-то третье.

Читать полностью…

Voice stuff

Indic Parler-TTS is a multilingual Indic extension of Parler-TTS Mini.

It is a fine-tuned version of Indic Parler-TTS Pretrained, trained on a 1,806 hours multilingual Indic and English dataset.

Indic Parler-TTS Mini can officially speak in 20 Indic languages, making it comprehensive for regional language technologies, and in English. The 21 languages supported are: Assamese, Bengali, Bodo, Dogri, English, Gujarati, Hindi, Kannada, Konkani, Maithili, Malayalam, Manipuri, Marathi, Nepali, Odia, Sanskrit, Santali, Sindhi, Tamil, Telugu, and Urdu.

Thanks to its better prompt tokenizer, it can easily be extended to other languages. This tokenizer has a larger vocabulary and handles byte fallback, which simplifies multilingual training.

https://huggingface.co/ai4bharat/indic-parler-tts

Читать полностью…

Voice stuff

Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

Читать полностью…

Voice stuff

Я настолько увлекся разными Coding Copilots, что решил создать отдельный awesome list на GitHub, чтобы и вы были в курсе: https://github.com/ifokeev/awesome-copilots

Читать полностью…
Subscribe to a channel