Telegram-канал voicestuff - Voice stuff: Unsorted - каталог телеграмм

voicestuff | Unsorted

Subscribe to a channel

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

20 Aug 2024 17:20

Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

Читать полностью…

Voice stuff

18 Aug 2024 17:30

Мы не ненавидим других, мы ненавидим себя

Не "я ненавижу собаку за то что она меня укусила", "я ненавижу себя, за то что я допустил чтобы собака меня укусила"

Не "я ненавижу эту девочку", а "я ненавижу себя, за то что не могу быть с ней"

Нет никакой ненависти к другим никогда. У кока-колы может не нравится вкус, но чтобы её ненавидеть, она должна задеть что-то внутри нас.

Читать полностью…

Voice stuff

12 Aug 2024 11:51

Если вы когда-нибудь почувствуете себя бесполезными, вспомните что есть какой-то юрист из Skillbox, который занимается защитой копирайтов по каналам в телеграме 🤯

Пришлите в комментарии ваши версии на каком посте был копирайт.

Читать полностью…

Voice stuff

08 Aug 2024 14:39

RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.

Основные моменты:

1. RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.

2. Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.

3. В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.

4. RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.

5. RLHF также помогает уменьшить галлюцинации модели.

Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.

https://x.com/karpathy/status/1821277264996352246

Читать полностью…

Voice stuff

06 Aug 2024 19:59

Наконец-то! OpenAI добавил параметр "strict": true к "type": "json_schema”.
Это на 100% гарантирует, что LLM вернет ответ в валидном JSON формате.

Ожидаемый огромный шаг вперед для разработчиков

🔗 Source: https://openai.com/index/introducing-structured-outputs-in-the-api/

#ai #api #openai #gpt #dev

—————————
Мысли Рвачева
—————————

Читать полностью…

Voice stuff

03 Aug 2024 16:12

Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?

Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:

1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента

✅ Наиболее удобный способ
✅ По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
✅ Хорошо в плане эмоций и интонаций, но не идеально

❌ Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
❌ Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета

2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.

При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие

✅ Это бесплатно
✅ Это можно использовать абсолютно в любых целях и в неограниченном количестве

❌ Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
❌ Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
❌ Фактически это не TTSка, а STSка

3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей

4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу

✅ Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
✅ Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
✅ TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs

❌ Произношение звука нельзя контролировать
❌ Само качество звука неважное
❌ Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому

В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs

Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC

Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai

Читать полностью…

Voice stuff

30 Jul 2024 08:15

Image generation is wonderful. Следите за руками.

Читать полностью…

Voice stuff

27 Jul 2024 13:53

Ну и конечно
https://arxiv.org/abs/2402.03962

Читать полностью…

Voice stuff

21 Jul 2024 03:40

Привет!

Пятничное продолжение релизов программы Data Fest 2024 🤗

Сегодня публикуем треки четырёх секций 🦜 Феста:
- Speech о решении задачи обработки речи
- Reliable ML про эффективное внедрение ML IRL
- ML in EdTech о применении машинного обучения в образовательном процессе
- DS Career (early game edition) про карьерные вопросы в начале пути

Напоминаем, что Ваши реакты на блоках и треках очень важны спикерам и организаторам 😇

Переходите по ссылкам выше, смотрите доклады, скачивайте презентации и голосуйте своими эмодзи (ставьте палец вверх 👍и другие эмодзи) на страницах блоков и треков за понравившиеся видео ❤️ Выберем лучшие доклады и треки вместе!❤️

Читать полностью…

Voice stuff

20 Jul 2024 14:35

Там короче придумали генератор текстов, который действительно очень генерализованный и действительно очень много крутого умеет. Но применяется он только туда, где есть последовательная генерация текста. Придумали костыли типо интерпретировать звук как текст и картинки как текст. И генерирует он с какой-то вероятностью, используя random. Так что ничего безошибочно он априори не умеет генерировать. Но суеты навели, будто второе пришествие Христа.

Читать полностью…

Voice stuff

17 Jul 2024 17:30

MLAAD: The Multi-Language Audio Anti-Spoofing Dataset

Что там:
- 163.9 синтезированной речи на 23 языках 🌍
- 54 TTS модели на 21 архитектуре 🤖

Авторы Nicolas Müller, Piotr Kawa, Wei Herng C., Edresson Casanova, Eren Gölge, Thorsten Müller, Piotr Syga, Philip Sperl и Konstantin Böttinger

Статья: https://arxiv.org/abs/2401.09512
Сам датасет: https://deepfake-total.com/mlaad

Читать полностью…

Voice stuff

15 Jul 2024 19:35

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.

Как это вышло?

➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.

Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:

➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.

Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).

В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.

Пейпер
Код

@ai_newz

Читать полностью…

Voice stuff

13 Jul 2024 17:30

https://techcrunch.com/2024/07/10/aws-app-studio-promises-to-generate-enterprise-apps-from-a-written-prompt/

Вы когда-нибудь задумывались что писать программы по промпту мало чем отличается от программирования на обычных языках программирования?

Читать полностью…

Voice stuff

11 Jul 2024 17:35

babe wake up leetcode for ML just dropped

https://www.deep-ml.com/

(жду когда добавят побольше задачек 😎)

Читать полностью…

Voice stuff

10 Jul 2024 10:54

https://github.com/NVIDIA/BigVGAN/commit/2d448238a14f14ef1b5079be00646778604924da

Читать полностью…

Voice stuff

18 Aug 2024 22:25

Целую неделю я не работал и собирал бояны чтобы сделать этот дамп. Enjoy

Читать полностью…

Voice stuff

16 Aug 2024 15:46

PeriodWave. Дифузионный вокодер.

Судя по цифрам моделька очень и очень мощная. Код пока не зарелизили, но обещают в скором времени.

https://arxiv.org/abs/2408.07547

https://arxiv.org/abs/2408.08019

Код обещают выложить вот здесь

https://github.com/sh-lee-prml/PeriodWave

Читать полностью…

Voice stuff

10 Aug 2024 13:11

Привет господа и господамы 🙂

Сегодня будет необычный стрим с кликбейтным названием, миллион у нас на команду моего с Димой стартапа Audio2MIDI) На стриме я буду гостем и поделюсь своей историей со временен, когда я был бекендером и отвечу на вопросы. Дальше меня будут чаще звать на такие мероприятия, но ничего бы не было без моего учителя. Есть у меня человек, без которого вероятно я бы не стал программистом, а потом ML инженером/ресерчером. Не стал бы вести этот канал и не стал бы преподавать. Мы знакомы 5й год и человек, который дал мне выйти в мир ИТ ~~print("Hello world!')~~ это Михаил Омельченко.

Стрим будет в 20:00

Читать полностью…

Voice stuff

07 Aug 2024 09:14

CogVideoX-2B - локальная SORA-подобная модель для генерации видео.

Модель является самой первой и одновременно младшей из серии моделей CogVideoX. В будущем, разработчики обещают выпустить более крупные версии.

По характеристикам:

Разрешение видео: 720x480
Частота кадров: 8 кадров в секунду
Длина видео: 6 секунд

Требуется минимум 18 Гигабайт видеопамяти при использовании SAT или 36 гигабайт при использовании diffusers в качестве бэкенда.
Если что, то как раз таки версия с веб интерфейсом работает на diffusers.

Разработчики обещают позже оптимизировать работу через diffusers и снизить требования к памяти.

Исходный код проекта можно найти на GitHub.

Попытаться потестить можно тут:

CogVideoX Online Demo

Воркфлоу для ComfyUI:

ComfyUI-CogVideoXWrapper

#text2video #aivideo #sora #video

Neurogen - подпишись, тут рассказывают про нейросети

Читать полностью…

Voice stuff

05 Aug 2024 17:26

Как очень быстро всё создавать

1. Составьте набросок проекта

2. Для каждого элемента в наброске сделайте свой набросок. Делайте это рекурсивно, пока не останется мало элементов.

3. Заполняйте каждый пункт как можно быстрее.

Вы получите больше импульса, ускорив работу, что будет приятно, и сделает вас еще более продуктивным.
НЕ СОВЕРШЕНСТВУЙТЕ ПО ХОДУ ДЕЛА. Это огромная и распространенная ошибка.

4. Наконец, когда все будет готово, вернитесь и доведите до совершенства.

Раскрасьте текст заголовка, определите, должны ли кнопки иметь радиус границы 5% или 6%, и т. д.
Когда вы закончите, вы будете менее напряжены, у вас будет гораздо более ясный ум, и вы сможете лучше оформить свой проект.
Кроме того, вы будете получать больше удовольствия от процесса и в конечном итоге сделаете больше вещей в долгосрочной перспективе, что позволит вам больше учиться и развиваться.

https://learnhowtolearn.org/how-to-build-extremely-quickly/

Читать полностью…

Voice stuff

31 Jul 2024 12:06

Угнал из @ventureStuff

Читать полностью…

Voice stuff

29 Jul 2024 17:25

Sharing with my personal pretrained model with everyone, now in public beta English or Spanish?

Dataset:

* Size: 1921 of speech & vocals
* Languages:
* Arabic (~70 hrs)
* Chinese (Mandarin) (~70 hrs)
* English (~800 hrs)
* French (~42 hrs)
* German (~35 hrs)
* Hindi (~30 hrs)
* Indonesian (~53 hrs)
* Japanese (~140 hrs)
* Korean (~80 hrs)
* Portuguese (~40 hrs)
* Russian (~188 hrs)
* Spanish (~200 hrs)
* Tagalog (~30 hrs)
* Singing (All) (~190 hrs)
* Common (Unknown)
* Sampling Rate: 32kHz (done) / 40kHz (retraining)

Models:

Base Model: for fine tuning
* Data: 1921 hours (low-mid quality)
* Steps: 3,890,220
* Batch: 40
* Precision: FP32
* Sampling Rate: 32k
* RMVPE*

Fine-Tuned Model: for regular models
* Data: 102 hours (high quality)
* Steps: 2,854,856
* Batch: 20
* Precision: FP32
* Sampling Rate: 32k
* RMVPE*

Hardware:

* CPU: AMD EPYC 9754
* RAM: 256GB
* GPUs: 1x H100, 4x L40s, 1x RTX 4080, 1x RTX 4070 Ti

Links
https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model

Base model (32k) - https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model/tree/main/Rigel_32k_Base_and_FineTuned/Base-model_32k_fp32
Fine Tuned (32k) - https://huggingface.co/MUSTAR/Rigel-rvc-base-pretrained-model/tree/main/Rigel_32k_Base_and_FineTuned/FineTuned-model_32k_fp32

(little note, do not use 40k version till it retrained)

Credits
* 0x2E
* Aleks don Pedro
* Blaise
* Eugene Starky
* Leo_Frixi
* Litsa_the_dancer_UwU
* Mikhail
* Player1444
* Prosto Dead Artem
* RomanKrukovsky
* SCRFilmsE
* Shirou
* Сергей Electrik
* Warlock700
* 서울스트리밍스테이션
(if i forgot to mention someone Thank you and I'm going to remind you in advance that I'm sorry and i apologize for the inconvenience of me forgetting to put you in the credits tab)
(no tests for now, sorry currently doing them)

Читать полностью…

Voice stuff

24 Jul 2024 10:58

Kling.ai открыли регистрацию для всех.

Меня очень радует как сервис предлагает посмотреть на какие-то удачные генерации. Сразу видно что сервис умеет генерировать что-то хорошее, и мой внутренний голос подсказывает что я не пожалею что потрачу денег здесь.

Более того, я вижу как в телеграм каналах тут-там и здесь проскакивает реклама сервиса, мол проверяйте.

Надо бы поучиться у таких запускать сервисы. Ну и интересно сколько они зарабатывают на нём.

klingai.com

Читать полностью…

Voice stuff

20 Jul 2024 17:30

Подъехали и фотографии автора RuAccent

Читать полностью…

Voice stuff

18 Jul 2024 17:30

🎵 Генерация музыки: цели, идеи и результаты.

Попробую изложить то, что понял) Глобально, как и всегда, мы хотим модель, которая удовлетворяет трем условиям:
➡️ Быстрая скорость генерации
➡️ Качественная генерация
➡️ Отличное разнообразие сгенереных данных

Речь будет идти про генерацию музыки в общем и генерироваться будут именно аудио семплы.

В принципе, если вы знакомы с генерацией картинок, то этап моделирования для генерации музыки не сильно отличается. Самое интересное в аудио генерации, наверное, это создать хороший аудио кодек. Сейчас в обиходе EnCodec, основанный на идее остаточного векторного квантования (RVQ), для оптимизации размера кодовой книги и трансформере для более быстрого векторного квантования. Также используются методы из GANs: есть дискриминатор, который оценивает сгенерированное аудио, как кодированное через 1D casual свертки, так и спектрограмму. Ну ладушки, начнем...

Говоря из далека, для качественной генерации нужно много данных и вычислительных ресурсов. Это есть, теперь нужна ML идея для генерации. Началось все с авторегрессионных моделей и корень этой идеи: WaveNet.

Но окажется, что модель не способна генерировать качественные НОВЫЕ данные да и работает очень долго. Такая проблема будет если авторегрессионно (условно, только RNN или трансформер) генерировать аудио данные. Машинное обучение это про подгонку кривой 😐 и в самых первых методах генерации все ровно так же. Вероятность, что нашим запросом генерации мы попадем в эту кривую мала. Тогда хотелось бы сделать эту кривую как можно шире, условно говоря))

Кто-то может подумать, хммм, текстовые трансформеры это авторегрессионки и они отлично генерируют данные. Но это текст, по сравнению с картинками и тем более с аудио, у текста куда меньшая размерность. Он генерируется быстрее, а также сделать self-atteantion на текстовые токены будто бы проще, чем на супер много пикселей или аудио семплов. Следовательно, с такой сложной структурой данных как аудио, трансформерам быть выразительной моделью непросто, но думаю можно) 🤨

Так мы приходим к GAN, VAE и Diffusion based методам. Диффузионки сейчас в моде, они обладают лучшей выразительной способностью (разнообразием сгенереных данных). В генерации картинок мы получаем буст за счет того, что генерируем пиксели почти независимо от значений других пикселей. Пока мы делали это авторегрессионно, пиксели генерировались на основе соседних, сильно связанных с со следующим пикселей. Это про картинки, но под музыку все это тоже адаптировали 👍

Добавить выразительности мы пробуем и другими идеями. Все еще я говорил про генерацию "из ничего". Добавим текстовое описание желаемым данным. Теперь признаковое пространство стало значительно больше, оно стало мультимодальным. Так мы обращаем внимание на детали, но также и на более общую структуру. Об этом были методы основанные на CLIP, CLAP, CLaMP и добавлю свежее улучшение CLIP — Jina CLIP. Идея CLAP активно используется для создания текст-аудио репрезентаций 🔝

Также можно добавить другие метаданные, как это сделали в недавней статье: добавить на вход информацию о нотах, мелодию + audio source separation и анализировать этот микс независимо во времени, а потом метчить признаки объединяя репрезентации с текстом. Далее эти репрезентации идут в декодер, который воспроизводит аудио. Довольно хитро) и это создает неплохое разнообразие, но над качеством стоит поработать. P. S. диффузионок в самой SOTA модели нету!) хы

🚩 Резюмируя, скорости добиваются за счет RVQ и трансформера на этапе векторного квантования + никто не отменял всякие прунинги и классическое квантование. Качество достигается за счет Big дата)) и Big нейронок + оценки дискриминатора. Разнообразие данных достигается за счет методов на основе VAE, Diffusion и мультимодальных репрезентаций, множества метаданных.

Позже хочу сделать более подробное обсуждение этих тем. Запущу стрим на ютубчике и айда, могу еще экспертных гостей позвать) А может также поделюсь пониманием и идеями в карточках. Хочется структурировать знания 🙂

#papers #music_generation

Читать полностью…

Voice stuff

16 Jul 2024 20:19

Смотрите что Карпатый снова придумал!

https://github.com/karpathy/LLM101n

Читать полностью…

Voice stuff

14 Jul 2024 14:40

После стольких лет развития синтеза речи, мы снова возвращаемся в эру Такотрона 🌮

Нашёл Николай Шмырёв

Читать полностью…

Voice stuff

12 Jul 2024 17:31

Транскрипцию аудио произвольного содержания в ноты для 1 инструмента теперь буду решать как end-2-end. Для этого мне нужен хороший токенезатор музыки. При чем обучить модель я смогу буквально на стандартной видюхе с 12 Гб памяти 😏

Еще я был приятно удивлен, когда узнал что уже существует с два десятка музыкальных токенезаторов и все они собраны в открытой и развивающейся либе MidiTok: https://github.com/Natooz/MidiTok

Последняя обнова была 2 недели назад, это приятно) В использовании она довольно проста, люди успели сделать ее удобной 👍

В то же время, мои новые коллеги пробуют другой вариант на основе разделения инструментов и вокала. Если что, на дата фесте я приобрел знакомства с единомышленниками и теперь решать задачу куда интереснее. Привет Дима) 😬

#research #music_generation

Читать полностью…

Voice stuff

10 Jul 2024 17:31

Друзья, сегодня у меня для вас отборная подборка каналов от коллег по цеху! Каждый из них - настоящая жемчужина в мире речевых технологий и ML. Давайте знакомиться:

@roman_kubansky — начинающий молодой редактор и дизайнер, энтузиаст в области ИИ. Рассказывает о своём опыте о редактуре, UX/UI и нейронках. Знает всю кухню «Википедии» изнутри — автор свыше 850 статей там на разные общественно-политические темы. У него может 80 подписчиков на канале, но 13к подписчиков на YouTube. т.к. раньше он писал Countryballs видео. Также увлекается Speech to speech клонированием голоса и нейродубляжом.

@asisakov_channel - здесь Александр делится своим опытом в ML, рассказывает о собеседованиях и выступлениях. Отличный ресурс для тех, кто хочет быть в курсе практической стороны машинного обучения.

@den4ikresearch - настоящая находка для любителей NLP! Денису всего 15 лет и он - автор крутых инструментов для обработки русского языка (RUAccent, RUNorm, RUPunct). В канале - технические детали, результаты экспериментов и ссылки на открытый код.

@vf_science - тот канал ведёт 17-летний Захар! Он занимается генерацией аудио, транскрипцией музыки, читает лекции в МГТУ и выступает на конференциях. Настоящий источник вдохновения и свежих идей в мире аудио-ML.

@teraspace_news - замечательный канал для любителей TTS! Диме всего 16 лет и он - автор TTS для русского языка (TeraTTS). В канале - результаты экспериментов, технические детали, ссылки на открытый код и мысли по TTS на будущее.

Рекомендую подписаться на всех - каждый канал уникален и полон инсайтов. Уверен, вы найдёте для себя много интересного и полезного!
А какие ещё каналы по теме речевых технологий и ML вы можете посоветовать? Делитесь в комментариях! 🚀🎙️🧠

Читать полностью…

Voice stuff

10 Jul 2024 10:54

NVIDIA выпустила новый BigVGAN

Читать полностью…

Subscribe to a channel