voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Если вы когда-нибудь почувствуете себя бесполезными, вспомните что есть какой-то юрист из Skillbox, который занимается защитой копирайтов по каналам в телеграме 🤯

Пришлите в комментарии ваши версии на каком посте был копирайт.

Читать полностью…

Voice stuff

RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.

Основные моменты:

1. RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.

2. Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.

3. В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.

4. RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.

5. RLHF также помогает уменьшить галлюцинации модели.

Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.


https://x.com/karpathy/status/1821277264996352246

Читать полностью…

Voice stuff

Наконец-то! OpenAI добавил параметр "strict": true к "type": "json_schema”.
Это на 100% гарантирует, что LLM вернет ответ в валидном JSON формате.

Ожидаемый огромный шаг вперед для разработчиков

🔗 Source: https://openai.com/index/introducing-structured-outputs-in-the-api/

#ai #api #openai #gpt #dev

—————————
Мысли Рвачева
—————————

Читать полностью…

Voice stuff

Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?

Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:

1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента

✅ Наиболее удобный способ
✅ По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
✅ Хорошо в плане эмоций и интонаций, но не идеально

❌ Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
❌ Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета

2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.

При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие

✅ Это бесплатно
✅ Это можно использовать абсолютно в любых целях и в неограниченном количестве

❌ Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
❌ Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
❌ Фактически это не TTSка, а STSка

3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей

4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу

✅ Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
✅ Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
✅ TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs

❌ Произношение звука нельзя контролировать
❌ Само качество звука неважное
❌ Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому

В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs

Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC

Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai

Читать полностью…

Voice stuff

Image generation is wonderful. Следите за руками.

Читать полностью…

Voice stuff

Ну и конечно
https://arxiv.org/abs/2402.03962

Читать полностью…

Voice stuff

Привет!

Пятничное продолжение релизов программы Data Fest 2024 🤗

Сегодня публикуем треки четырёх секций 🦜 Феста:
- Speech о решении задачи обработки речи
- Reliable ML про эффективное внедрение ML IRL
- ML in EdTech о применении машинного обучения в образовательном процессе
- DS Career (early game edition) про карьерные вопросы в начале пути

Напоминаем, что Ваши реакты на блоках и треках очень важны спикерам и организаторам 😇

Переходите по ссылкам выше, смотрите доклады, скачивайте презентации и голосуйте своими эмодзи (ставьте палец вверх 👍и другие эмодзи) на страницах блоков и треков за понравившиеся видео ❤️ Выберем лучшие доклады и треки вместе!❤️

Читать полностью…

Voice stuff

Там короче придумали генератор текстов, который действительно очень генерализованный и действительно очень много крутого умеет. Но применяется он только туда, где есть последовательная генерация текста. Придумали костыли типо интерпретировать звук как текст и картинки как текст. И генерирует он с какой-то вероятностью, используя random. Так что ничего безошибочно он априори не умеет генерировать. Но суеты навели, будто второе пришествие Христа.

Читать полностью…

Voice stuff

MLAAD: The Multi-Language Audio Anti-Spoofing Dataset

Что там:
- 163.9 синтезированной речи на 23 языках 🌍
- 54 TTS модели на 21 архитектуре 🤖


Авторы Nicolas Müller, Piotr Kawa, Wei Herng C., Edresson Casanova, Eren Gölge, Thorsten Müller, Piotr Syga, Philip Sperl и Konstantin Böttinger

Статья: https://arxiv.org/abs/2401.09512
Сам датасет: https://deepfake-total.com/mlaad

Читать полностью…

Voice stuff

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.

Как это вышло?

➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.

Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:

➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.

Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).

В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.

Пейпер
Код

@ai_newz

Читать полностью…

Voice stuff

https://techcrunch.com/2024/07/10/aws-app-studio-promises-to-generate-enterprise-apps-from-a-written-prompt/

Вы когда-нибудь задумывались что писать программы по промпту мало чем отличается от программирования на обычных языках программирования?

Читать полностью…

Voice stuff

babe wake up leetcode for ML just dropped

https://www.deep-ml.com/

(жду когда добавят побольше задачек 😎)

Читать полностью…

Voice stuff

https://github.com/NVIDIA/BigVGAN/commit/2d448238a14f14ef1b5079be00646778604924da

Читать полностью…

Voice stuff

Figma сделала очень крутое применение LLM-кам

Очень люблю когда делают не самый простой функционал мол сделай сводку и поправь орфографию. В Фигме, судя по видео, сделали ещё очень много всяких элементов, которые ускоряют дизайн. Тут тебе и генерация изображений, и генерация блоков, стрелочек и дополнение листов. Я сначала долго думал как это всё реализовано через ЛЛМ, а потом подумал что в фигме наверно есть внутренний язык разметки, которому обучили трансформер и он стал генерировать все необходимые формочки и стрелочки.

Посмотрите видео на сайте! Ну или у меня за 50 звёздочек (100р).

https://www.figma.com/blog/introducing-figma-ai/

Читать полностью…

Voice stuff

Demucs обучался на 800 песнях. А есть ещё проект от Deezer, который обучался на 25к песнях
https://github.com/deezer/spleeter
По качеству там вроде всё не слишком хорошо.

К счастью, все его данные являются достоянием публики и можно затюнить demucs v4 на этом.
https://sigsep.github.io/datasets/musdb.html#musdb18-compressed-stems

Читать полностью…

Voice stuff

Привет господа и господамы 🙂

Сегодня будет необычный стрим с кликбейтным названием, миллион у нас на команду моего с Димой стартапа Audio2MIDI) На стриме я буду гостем и поделюсь своей историей со временен, когда я был бекендером и отвечу на вопросы. Дальше меня будут чаще звать на такие мероприятия, но ничего бы не было без моего учителя. Есть у меня человек, без которого вероятно я бы не стал программистом, а потом ML инженером/ресерчером. Не стал бы вести этот канал и не стал бы преподавать. Мы знакомы 5й год и человек, который дал мне выйти в мир ИТ print("Hello world!') это Михаил Омельченко.

Стрим будет в 20:00

Читать полностью…

Voice stuff

CogVideoX-2B - локальная SORA-подобная модель для генерации видео.

Модель является самой первой и одновременно младшей из серии моделей CogVideoX. В будущем, разработчики обещают выпустить более крупные версии.

По характеристикам:

Разрешение видео: 720x480
Частота кадров: 8 кадров в секунду
Длина видео: 6 секунд

Требуется минимум 18 Гигабайт видеопамяти при использовании SAT или 36 гигабайт при использовании diffusers в качестве бэкенда.
Если что, то как раз таки версия с веб интерфейсом работает на diffusers.

Разработчики обещают позже оптимизировать работу через diffusers и снизить требования к памяти.

Исходный код проекта можно найти на GitHub.

Попытаться потестить можно тут:

CogVideoX Online Demo

Воркфлоу для ComfyUI:

ComfyUI-CogVideoXWrapper

#text2video #aivideo #sora #video

Neurogen - подпишись, тут рассказывают про нейросети

Читать полностью…

Voice stuff

Как очень быстро всё создавать

1. Составьте набросок проекта

2. Для каждого элемента в наброске сделайте свой набросок. Делайте это рекурсивно, пока не останется мало элементов.

3. Заполняйте каждый пункт как можно быстрее.

Вы получите больше импульса, ускорив работу, что будет приятно, и сделает вас еще более продуктивным.
НЕ СОВЕРШЕНСТВУЙТЕ ПО ХОДУ ДЕЛА. Это огромная и распространенная ошибка.

4. Наконец, когда все будет готово, вернитесь и доведите до совершенства.

Раскрасьте текст заголовка, определите, должны ли кнопки иметь радиус границы 5% или 6%, и т. д.
Когда вы закончите, вы будете менее напряжены, у вас будет гораздо более ясный ум, и вы сможете лучше оформить свой проект.
Кроме того, вы будете получать больше удовольствия от процесса и в конечном итоге сделаете больше вещей в долгосрочной перспективе, что позволит вам больше учиться и развиваться.

https://learnhowtolearn.org/how-to-build-extremely-quickly/

Читать полностью…

Voice stuff

Угнал из @ventureStuff

Читать полностью…

Voice stuff

Sharing with my personal pretrained model with everyone, now in public beta English or Spanish?

Dataset:

* Size: 1921 of speech & vocals
* Languages:
* Arabic (~70 hrs)
* Chinese (Mandarin) (~70 hrs)
* English (~800 hrs)
* French (~42 hrs)
* German (~35 hrs)
* Hindi (~30 hrs)
* Indonesian (~53 hrs)
* Japanese (~140 hrs)
* Korean (~80 hrs)
* Portuguese (~40 hrs)
* Russian (~188 hrs)
* Spanish (~200 hrs)
* Tagalog (~30 hrs)
* Singing (All) (~190 hrs)
* Common (Unknown)
* Sampling Rate: 32kHz (done) / 40kHz (retraining)

Models:

Base Model: for fine tuning
* Data: 1921 hours (low-mid quality)
* Steps: 3,890,220
* Batch: 40
* Precision: FP32
* Sampling Rate: 32k
* RMVPE*

Fine-Tuned Model: for regular models
* Data: 102 hours (high quality)
* Steps: 2,854,856
* Batch: 20
* Precision: FP32
* Sampling Rate: 32k
* RMVPE*

Hardware:

* CPU: AMD EPYC 9754
* RAM: 256GB
* GPUs: 1x H100, 4x L40s, 1x RTX 4080, 1x RTX 4070 Ti

Links
https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model

Base model (32k) - https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model/tree/main/Rigel_32k_Base_and_FineTuned/Base-model_32k_fp32
Fine Tuned (32k) - https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model/tree/main/Rigel_32k_Base_and_FineTuned/FineTuned-model_32k_fp32

(little note, do not use 40k version till it retrained)

Credits
* 0x2E
* Aleks don Pedro
* Blaise
* Eugene Starky
* Leo_Frixi
* Litsa_the_dancer_UwU
* Mikhail
* Player1444
* Prosto Dead Artem
* RomanKrukovsky
* SCRFilmsE
* Shirou
* Сергей Electrik
* Warlock700
* 서울스트리밍스테이션
(if i forgot to mention someone Thank you and I'm going to remind you in advance that I'm sorry and i apologize for the inconvenience of me forgetting to put you in the credits tab)
(no tests for now, sorry currently doing them)

Читать полностью…

Voice stuff

Kling.ai открыли регистрацию для всех.

Меня очень радует как сервис предлагает посмотреть на какие-то удачные генерации. Сразу видно что сервис умеет генерировать что-то хорошее, и мой внутренний голос подсказывает что я не пожалею что потрачу денег здесь.

Более того, я вижу как в телеграм каналах тут-там и здесь проскакивает реклама сервиса, мол проверяйте.

Надо бы поучиться у таких запускать сервисы. Ну и интересно сколько они зарабатывают на нём.

klingai.com

Читать полностью…

Voice stuff

Подъехали и фотографии автора RuAccent

Читать полностью…

Voice stuff

🎵 Генерация музыки: цели, идеи и результаты.

Попробую изложить то, что понял) Глобально, как и всегда, мы хотим модель, которая удовлетворяет трем условиям:
➡️ Быстрая скорость генерации
➡️ Качественная генерация
➡️ Отличное разнообразие сгенереных данных

Речь будет идти про генерацию музыки в общем и генерироваться будут именно аудио семплы.

В принципе, если вы знакомы с генерацией картинок, то этап моделирования для генерации музыки не сильно отличается. Самое интересное в аудио генерации, наверное, это создать хороший аудио кодек. Сейчас в обиходе EnCodec, основанный на идее остаточного векторного квантования (RVQ), для оптимизации размера кодовой книги и трансформере для более быстрого векторного квантования. Также используются методы из GANs: есть дискриминатор, который оценивает сгенерированное аудио, как кодированное через 1D casual свертки, так и спектрограмму. Ну ладушки, начнем...

Говоря из далека, для качественной генерации нужно много данных и вычислительных ресурсов. Это есть, теперь нужна ML идея для генерации. Началось все с авторегрессионных моделей и корень этой идеи: WaveNet.

Но окажется, что модель не способна генерировать качественные НОВЫЕ данные да и работает очень долго. Такая проблема будет если авторегрессионно (условно, только RNN или трансформер) генерировать аудио данные. Машинное обучение это про подгонку кривой 😐 и в самых первых методах генерации все ровно так же. Вероятность, что нашим запросом генерации мы попадем в эту кривую мала. Тогда хотелось бы сделать эту кривую как можно шире, условно говоря))

Кто-то может подумать, хммм, текстовые трансформеры это авторегрессионки и они отлично генерируют данные. Но это текст, по сравнению с картинками и тем более с аудио, у текста куда меньшая размерность. Он генерируется быстрее, а также сделать self-atteantion на текстовые токены будто бы проще, чем на супер много пикселей или аудио семплов. Следовательно, с такой сложной структурой данных как аудио, трансформерам быть выразительной моделью непросто, но думаю можно) 🤨

Так мы приходим к GAN, VAE и Diffusion based методам. Диффузионки сейчас в моде, они обладают лучшей выразительной способностью (разнообразием сгенереных данных). В генерации картинок мы получаем буст за счет того, что генерируем пиксели почти независимо от значений других пикселей. Пока мы делали это авторегрессионно, пиксели генерировались на основе соседних, сильно связанных с со следующим пикселей. Это про картинки, но под музыку все это тоже адаптировали 👍

Добавить выразительности мы пробуем и другими идеями. Все еще я говорил про генерацию "из ничего". Добавим текстовое описание желаемым данным. Теперь признаковое пространство стало значительно больше, оно стало мультимодальным. Так мы обращаем внимание на детали, но также и на более общую структуру. Об этом были методы основанные на CLIP, CLAP, CLaMP и добавлю свежее улучшение CLIP — Jina CLIP. Идея CLAP активно используется для создания текст-аудио репрезентаций 🔝

Также можно добавить другие метаданные, как это сделали в недавней статье: добавить на вход информацию о нотах, мелодию + audio source separation и анализировать этот микс независимо во времени, а потом метчить признаки объединяя репрезентации с текстом. Далее эти репрезентации идут в декодер, который воспроизводит аудио. Довольно хитро) и это создает неплохое разнообразие, но над качеством стоит поработать. P. S. диффузионок в самой SOTA модели нету!) хы

🚩 Резюмируя, скорости добиваются за счет RVQ и трансформера на этапе векторного квантования + никто не отменял всякие прунинги и классическое квантование. Качество достигается за счет Big дата)) и Big нейронок + оценки дискриминатора. Разнообразие данных достигается за счет методов на основе VAE, Diffusion и мультимодальных репрезентаций, множества метаданных.

Позже хочу сделать более подробное обсуждение этих тем. Запущу стрим на ютубчике и айда, могу еще экспертных гостей позвать) А может также поделюсь пониманием и идеями в карточках. Хочется структурировать знания 🙂

#papers #music_generation

Читать полностью…

Voice stuff

Смотрите что Карпатый снова придумал!

https://github.com/karpathy/LLM101n

Читать полностью…

Voice stuff

После стольких лет развития синтеза речи, мы снова возвращаемся в эру Такотрона 🌮

Нашёл Николай Шмырёв

Читать полностью…

Voice stuff

Транскрипцию аудио произвольного содержания в ноты для 1 инструмента теперь буду решать как end-2-end. Для этого мне нужен хороший токенезатор музыки. При чем обучить модель я смогу буквально на стандартной видюхе с 12 Гб памяти 😏

Еще я был приятно удивлен, когда узнал что уже существует с два десятка музыкальных токенезаторов и все они собраны в открытой и развивающейся либе MidiTok: https://github.com/Natooz/MidiTok

Последняя обнова была 2 недели назад, это приятно) В использовании она довольно проста, люди успели сделать ее удобной 👍

В то же время, мои новые коллеги пробуют другой вариант на основе разделения инструментов и вокала. Если что, на дата фесте я приобрел знакомства с единомышленниками и теперь решать задачу куда интереснее. Привет Дима) 😬

#research #music_generation

Читать полностью…

Voice stuff

Друзья, сегодня у меня для вас отборная подборка каналов от коллег по цеху! Каждый из них - настоящая жемчужина в мире речевых технологий и ML. Давайте знакомиться:

@roman_kubansky — начинающий молодой редактор и дизайнер, энтузиаст в области ИИ. Рассказывает о своём опыте о редактуре, UX/UI и нейронках. Знает всю кухню «Википедии» изнутри — автор свыше 850 статей там на разные общественно-политические темы. У него может 80 подписчиков на канале, но 13к подписчиков на YouTube. т.к. раньше он писал Countryballs видео. Также увлекается Speech to speech клонированием голоса и нейродубляжом.

@asisakov_channel - здесь Александр делится своим опытом в ML, рассказывает о собеседованиях и выступлениях. Отличный ресурс для тех, кто хочет быть в курсе практической стороны машинного обучения.

@den4ikresearch - настоящая находка для любителей NLP! Денису всего 15 лет и он - автор крутых инструментов для обработки русского языка (RUAccent, RUNorm, RUPunct). В канале - технические детали, результаты экспериментов и ссылки на открытый код.

@vf_science - тот канал ведёт 17-летний Захар! Он занимается генерацией аудио, транскрипцией музыки, читает лекции в МГТУ и выступает на конференциях. Настоящий источник вдохновения и свежих идей в мире аудио-ML.

@teraspace_news - замечательный канал для любителей TTS! Диме всего 16 лет и он - автор TTS для русского языка (TeraTTS). В канале - результаты экспериментов, технические детали, ссылки на открытый код и мысли по TTS на будущее.

Рекомендую подписаться на всех - каждый канал уникален и полон инсайтов. Уверен, вы найдёте для себя много интересного и полезного!
А какие ещё каналы по теме речевых технологий и ML вы можете посоветовать? Делитесь в комментариях! 🚀🎙️🧠

Читать полностью…

Voice stuff

NVIDIA выпустила новый BigVGAN

Читать полностью…

Voice stuff

torch.compile, the missing manual https://docs.google.com/document/d/1y5CRfMLdwEoF1nTk9q8qEu1mgMUuUtvhklPKJ2emLU8

Читать полностью…

Voice stuff

Скоро выступлю с докладом: "Генерация нот на основе аудио произвольного содержания". Начинаю популяризировать ML in music.

Могу тупить во время презентации) Но основные тезисы вот:

*️⃣Репрезентации от моделей предобученных для генерации музыки очень полезны. По крайней мере репрезентации от JukeBox.
*️⃣Берем репрезентации и подаем их на вход языковой модели (не обученной) и обучаем решать наши задачи из MIR.
*️⃣В будущем попробую токенезировать все возможные нотные обозначения и размечать набор данных собирая последовательность токенов. Потом на этих данных учить свои модели, в теории все будет круто и получится новая SOTA для генерации нот и др. MIR задач, хы.

Я конечно очень многое не сказал сейчас и на докладе не скажу. Формат ограничивает, так что задавайте вопросы тута, ну и... Мы еще увидимся на других конференциях/митапах! 🙂

До встречи в прямом эфире и оффлайн в 19:15! (не тыкайте на время, это ловушка)

Читать полностью…
Subscribe to a channel