voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

https://github.com/zyushun/Adam-mini

Читать полностью…

Voice stuff

Ничего себе чего espnet выпустили 🤩

https://www.wavlab.org/activities/2024/xeus/

Читать полностью…

Voice stuff

Напоминаю как правильно делать видеозаявку в Y Combinator

Читать полностью…

Voice stuff

flow matching consistently better than diffusion

https://arxiv.org/abs/2406.10970

Читать полностью…

Voice stuff

GitHub - yandexdataschool/speech_course: YSDA course in Speech Processing.
https://github.com/yandexdataschool/speech_course

Читать полностью…

Voice stuff

Когда я был в школе и научился программировать, мне казалось что если просто уделить достаточно времени, то можно запрограммировать всё, что угодно. Типо, написать операционную систему, беспилотный вертолёт - нужно просто дать достаточно инструкций.

Со временем я понял, что на такие крупные проблемы может и жизни не хватить чтобы всё написать в одно лицо.

А ещё позже я понял что не всё можно запрограммировать. Какие вы можете придумать инструкции чтобы распознать кошку на фотографии? Да их просто не может существовать. И чем логичнее подходить к этому вопросу, тем хуже выйдет.

Тут нужен другой подход. Инструкции тут должны написать сами себя и с какой-то вероятностью мы найдём кошку на фото. И тут кажется что вот мы сейчас найдём достаточно данных и тоже всё обучим.

Я *подозреваю* что с AI тоже есть какие-то дырки, которые всем кажутся легко преодолимыми. Ну например, я ещё не видел одного агента, который был бы автономным и не требовал постоянного надзора человека за ним. Если дать gpt-4 интерпретатор и попросить запрограммировать что-то, что не гуглится - вроде детектора черно-белых фотографий. Она не справится даже если ей дать бесконечно много времени. (Я решил эту задачку CLIPом и разметкой на 100 изображений)

ChatGPT хорошо заменяет гугл и писателя и это очень крутой прогресс. Но думает она всё ещё очень ограниченно. И несмотря на тренд что она становится умнее, что-то фундаментальное должно сдвинуться сначала. Так что я бы относился со спокойствием к заявлениям о том что *AGI is about to break out и поработит нас*. Конечно же это крутая технология и многое меняет, но бесполезно говорить что она станет умнее/быстрее/выносливее нас - она безусловно, уже стала, но мы с вами живём примерно той же жизнью. Машины всегда были в чем-то лучше людей, но людьми они от этого не стали.

Короче, я думаю что вся история про злой AI порабощающий человечество - это спекуляция.

https://situational-awareness.ai/

Читать полностью…

Voice stuff

Новый кодек от Меты

https://engineering.fb.com/2024/06/13/web/mlow-metas-low-bitrate-audio-codec/

Читать полностью…

Voice stuff

Вышла Stable Diffusion 3!

https://huggingface.co/stabilityai/stable-diffusion-3-medium

Читать полностью…

Voice stuff

RUAccent-1.5.7

1. Добавлена новая модель Tiny. Главное преимущество - размер модели 10 мегабайт! Это в 36 раз меньше, чем RUAccent-turbo.
2. Tiny-mode. Специальный режим, в котором загружается только часть словарей и моделей.
3. Исправлены мелкие баги

В режиме tiny ruAccent потребляет всего 200 мегабайт

Метрики


ruaccent_big_poetry -> 0.93 avg
ruaccent_turbo -> 0.95 avg
ruaccent_turbo2 -> 0.97 avg
ruaccent_tiny -> 0.94 avg


Код использования:


from ruaccent import RUAccent

accentizer = RUAccent()
accentizer.load(omograph_model_size='tiny', use_dictionary=True, tiny_mode=True)

text = 'на двери висит замок.'
print(accentizer.process_all(text))



GitHub: ссылка
Поддержать автора: cloudtips


@den4ikresearch

Читать полностью…

Voice stuff

Сергей Марков выпустил книгу!

Я общался с ним когда он её писал и помню что он перелопатил всю историю возникновения ИИ и вычислений. Буквально от царя гороха начал. И там столько занятных историй - умора. Пока я работал в сбердевайсах, он нас каждую неделю собирал в ресторане и рассказывал какую-нибудь занятную историю, которую подчерпал из архивов про разных исследователей.

Поразительно как развивались задачи, а с ними развивалась техника. Уверен, его книга именно об этом невероятном развитии событий. Сергей крутой дядька и я уверен что у него есть мноого чего рассказать про ИИ. Книга, кстати, бесплатная!

https://markoff.science/

Читать полностью…

Voice stuff

https://www.theregister.com/2024/06/05/agile_failure_rates/

Читать полностью…

Voice stuff

То, что видеокарты стоят как крыло от самолёта больше не крылатое выражение

Читать полностью…

Voice stuff

https://suno.com/song/2a210337-62fc-49f8-8850-9af12e06e6e0

Читать полностью…

Voice stuff

Напоминаю что завтра ровно в 12:00 я выступаю на DataFest с докладом о том как сделать хороший синтез речи дешевле. Приходите послушать!

Читать полностью…

Voice stuff

В новый айпад запихнули RTX 3090 и OLED дисплей

При этом он какой-то невероятно тонкий. 3090 - это если сравнить флопсы c M4.

Приложений всё ещё не завезли из-за жадного App Store. Обязательно сообщу вам когда айпадом можно будет пользоваться нам, работягам. Пока всё ещё нет.

Действительно тонко)))))

Читать полностью…

Voice stuff

Я недавно перешёл в генерацию изображений и вообще всегда тяготел немного больше к бизнесу, чем к инженерии. Так что блог будет немного эволюционировать по формату и по наполнению. Будет меньше ссылок на статьи из аудио, но будет больше постов о разном технологическом.

Вообще мне блог нужен для того чтобы я мог задать довольно домен-специфичные вопросы и получить на них ответ. Так что очень советую вместо канала зайти в группу @voice_stuff_chat - там те же самые посты, только с комментариями к ним. Можно сразу кинуть её в архив, но хотя бы сможете найти.

Второе объявление это нам в команду нужен человек, который умеет делать липсинк и делать его хорошо. Вилка доволно скромная, но присылайте своё резюме мне на @frappuccino_o

Читать полностью…

Voice stuff

Тут какие-то ребята сделали эмуляцию RISC процессора на транформере. Это позволяет выполнять циклические инструкции.

https://arxiv.org/abs/2301.13196

Читать полностью…

Voice stuff

У каждого в телеграме есть каналы ведь, да? Давайте такую акцию. Напишите мне на @frappuccino_o свой канал и 140 символов с его описанием. Если тематика похожа, я опубликую ваш канал у себя в подборке.

Взамен хочу чтобы вы написали у себя на канале пост про @voice_stuff_chat.

Читать полностью…

Voice stuff

🔍 ЛЕКТОРИЙ ЯНДЕКСА 2024 ❣️

Уже две недели прошло с открытия Летних школ и Лектория Яндекса 2024 — эфир. И я по своей хорошей традиции собираю все лекции, которые уже были проведены. Всем приятного просмотра и погружения в большое количество лекций 🔥

ШМЯ 2024 (Школа менеджеров Яндекса) 💯
Все в одной лодке: менеджер и команда (кругляй стол)
Больше, чем фича-оунер: зачем мне думать про стратегию, если я управляю конкретной фичей
Стратегическая прожарка Яндекс Лавки

ШАР 2024 (Школа аналитиков-разработчиков)
Что такое аналитика?

ШРИ 2024 (Школа разработчиков интерфейсов) 💎
Node.js. Бэкенд для фронтендера
Асинхронность
Тулинг
Типизация
Типизация продвинутый

ШМР Android 2024 (Школа мобильной разработки) 💻
Вводная по платформе
View в Android
Jetpack Compose
Погружение в Kotlin и JVM
Многопоточность

ШМР Flutter 2024 (Школа мобильной разработки) 💻
Флаттер-мастерская: опыт команд Яндекса в разработке на Flutter
Асинхронка
Architecture. Часть 1: App Architecture Overview
Advanced Widgets
Architecture. Часть 2: Flutter, State Management, существующие решения

ШМР iOS 2024 (Школа мобильной разработки) 💻
Вводная по платформе
Advanced Swift programming Part 1
Advanced Swift Programming Part 2
Basic SwiftUI
Advanced SwiftUI

ШБР 2024 (Школа бэкенд-разработки) 💻 💻 💻
Вводная лекция про бэкенд
Архитектура кода (Java)
Архитектура кода (Python)
Архитектура кода (C++)
Вводная лекция про userver (С++)
Как проектировать HTTP API

КИТ 2024 (Курсы информационных технологий) ⚙️
Как всё организовано в Linux
Инструменты Linux

#ШколаМенеджеровЯндекса #ЛекцииЯндекса
Давай наберем 30 🔥, если было полезно!
OutOfScope | OOS

Читать полностью…

Voice stuff

Goldfish Loss: заставим LLM запоминать смысл, а не текст

Языковые модели часто вызубривают обучающие примеры, а это очень неприятно, особенно когда в датасете есть приватные данные, диалоги реальных пользователей или контент с копирайтом. Да и вообще, хочется, чтобы LLM запомнила именно смысл обучающих данных, а не заучивала их наизусть.

Оказалось, что одним из самых эффективных способов борьбы с таким поведением — это простой дропаут лосса, то есть маскирование ошибки для случайного сабсета токенов в тексте (~25%). Таким образом модель не научится дословно воспроизводить то, что видит. Даже после 10 эпох дообучения на Гарри Поттере "плагиат" в генерациях модели остаётся на уровне нуля. А главное, что такая регуляризация не ухудшает финальные метрики, в том числе на претрейне.

Статья, GitHub

Читать полностью…

Voice stuff

Numpy 2.0 👏

Судя по релизу, улучшения чисто эстетические и более заметные для тех, кто разрабатывает numpy, чем для пользователей.

Как я понял, главная цель релиза была навести чистоту в namespace. Поэтому в удалённом там почистили много ссылок на типы. Теперь есть только одно название у каждого типа. И np.cast не работает - но он уже был deprecated. И ещё где-то 5 функций, которые я никогда не использовал. Ещё почистили импорты, поубирали from ... import * для внутренних компонентов. Так что теперь в видимых модулях должна наступить чистота.

Несмотря на такое обширное удаление, всё должно быть очень совместимым. Я не нашёл ничего часто используемого. Так что релиз должен пройти на уровне PyTorch 2.0, где никому не пришлось переписывать код под новую версию.

https://numpy.org/devdocs/release/2.0.0-notes.html

Читать полностью…

Voice stuff

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

Есть два типа статей :
1. A are B
2. C is all you need

Говорят, если называть статью не вторично, то у авторов мгновенно отваливается жопа.

https://arxiv.org/pdf/2406.05370

Читать полностью…

Voice stuff

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

Эрен Гёлге и Эдрессон Казанова наконец-то написали статью по XTTS. Писали они её с декабря где-то, но потом Coqui-AI разорилась и ребята дописывали статью уже в новых местах. Эдрессон в Нвидии, а Эрен и Джулиан дописывали из Cantina.ai.

XTTS - это очень сильная работа. В ТТС довольно тяжело передать эмоции, голос и поддерживать много языков. Эта система умеет всё это (со звёздочкой, ладно). XTTS обучена на целой куче разных языков, что является её силой и её слабостью одновременно.

Вообще по секрету вам скажу что главная слабость XTTS - это её датасет. Хорошие данные собирать дорого и долго, так ещё и модель с них обучать выходит дороже. XTTS выпускали уже когда все ресурсы заканчивались поэтому там данные имеют много ошибок. Если доучить на своих данных, то звучать она будет очень хорошо.

https://arxiv.org/abs/2406.04904

Читать полностью…

Voice stuff

Там вышла новая серия моего любимого сериала. На этот раз Карпатый предлагает воспроизвести GPT-2. Длится 4 часа 🤯


https://youtu.be/l8pRSuU81PU?si=wjlOUR0d-KSfQHgT

Читать полностью…

Voice stuff

📰 StabilityAI - Introducing Stable Audio Open - An Open Source Model for Audio Samples and Sound Design
Stable Audio Open is an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.

https://stability.ai/news/introducing-stable-audio-open

Читать полностью…

Voice stuff

PFlow на Encodec.

Список изменений:

Use Encodec instead of MelSpectrogram.
Use character-base input instead of phoneme, and GT duration as a target of duration predictor instead of MAS.
Use AdaLN-Zero from DiT for speaker-conditioned text encoder instead of concat and self-attention.
Use transformer as Flow Matching decoder instead of Wavenet blocks with AdaLN-Single timestep conditioning from PixArt-α
Use attention pooling instead of mean pooling to get fixed-size speaker embedding as P-Flow used in their ablation study.
Use conv-feedforward(FFT Block from Fastspeech) and GeGLU
Use Alibi + Convolution positional encoding in transformer, from data2vec 2.0 and voicebox
Use null cond for CFG sampling instead of mean-pooled hidden vectors.


https://github.com/seastar105/pflow-encodec

Читать полностью…

Voice stuff

Как не разориться и сделать хороший синтез речи - Data Fest 1 июня секция Speech

Рассказываю свой рецепт того как не потратить слишком много денег на синтез речи. Почему вообще в синтез речи кто-то готов вкладывать крупные деньги? Где там сходится экономика и как её оптимизирую обычно я и где её сможете применить вы. Нанимать джунов или сеньоров, использовать SOTA или древнючий такотрон 2, покупать свои видюхи или арендовать - всё это будет в моём докладе.

Таймкоды, чтобы вам было понятно что там:
01:25 Как работает синтез речи
02:00 Основные проблемы синтеза речи
03:24 Экономика синтеза речи
03:26 Прогресс стоимости и сложности
06:52 Стоимость обучения SOTA модели для TTS
07:48 Стоимость обучения Top tier модели для синтеза речи в России
08:20 Почему кто-то платит столько за синтез речи?
10:27 Различия в разных задачах
11:27 Ключ к успеху
11:40 Если нужна быстрая система
13:28 Нужен конкретный спикер
15:50 Нужен разговорный стиль речи
17:13 Нужно успеть за две недели
18:36 Использование новых систем
20:19 Недорогие способы улучшения синтеза
21:16 Оптимизация расходов
21:17 Сокращение времени на разработку
24:05 Оптимизация вычислительных ресурсов
25:16 Стажёры или специалисты в команде?
26:14 Заключение

Ссылка на видео:
https://youtu.be/YjFLSSuSX5U

Читать полностью…

Voice stuff

Начинаем прямо сейчас!

https://ods.ai/events/df2024-1-june-online

Читать полностью…

Voice stuff

You Only Cache once

У трансформеров есть беда с потреблением памяти на длинных контекстах. Карта attention это квадрат от длины входа. В Майкрософт предлложили как сделать модель О(1) по памяти и скорости инференса. И ограничения по длине контекста тоже уходят в небытие. Надо сказать что результаты многообещающие.

https://arxiv.org/abs/2405.05254
https://github.com/microsoft/unilm/tree/master/YOCO

Читать полностью…

Voice stuff

Кто-то хочет в СФ на хакатон по ЛЛаМе от Меты? Это уже на следующей неделе 🤖

https://partiful.com/e/p5bNF0WkDd1n7JYs3m0A

Читать полностью…
Subscribe to a channel