Напоминаю что завтра ровно в 12:00 я выступаю на DataFest с докладом о том как сделать хороший синтез речи дешевле. Приходите послушать!
Читать полностью…В новый айпад запихнули RTX 3090 и OLED дисплей
При этом он какой-то невероятно тонкий. 3090 - это если сравнить флопсы c M4.
Приложений всё ещё не завезли из-за жадного App Store. Обязательно сообщу вам когда айпадом можно будет пользоваться нам, работягам. Пока всё ещё нет.
Действительно тонко)))))
RUNorm v1 - открытый русскоязычный нормализатор текста перед TTS.
Примерно месяц назад был открытый бета-тест RUNorm в телеграм-боте. С этого момента было много экспериментов с тэггером и нормализатором. Отдельная модель для нормализации чисел была удалена.
Был обновлен набор моделей, теперь их 3:
- RUNorm_big (FRED-T5_LARGE 860M параметров)
- RUNorm_medium (ruT5-base 222M параметров)
- RUNorm_small (FRED-T5-95M. Дистиллят большой модели. 95M параметров)
Как и на чем обучались модели?
Изначально, датасет состоял из очень грязных данных, частично написанных руками, частично размеченных chatGPT. После, был обучен FRED-T5-1.7B. Потом взял большой текстовый датасет (pikabu) и регуляркой вытащил предложения, где предположительно должны быть сокращения и прогнал через этого фреда.
Идея пайплайна для чисел была взята отсюда, но с небольшими доработками, в виде нормализации чисел еще до подачи в модель. Таким образом, модели не обязательно знать, как число перевести в текст, остается только склонить.
Модель для английских слов училась транслитерировать небольшие последовательности из разных английских слов в русские. Датасет также полусинтетический, часть размечена руками, часть взята из датасета с соревы от гугла на каггле, часть размечена chatGPT.
За основу датасета модели-тэггер был взят тот же с соревы гугла по нормализации текста, но с небольшим обогащением сокращениями.
Модели можно потыкать тут: ссылка
GitHub: ссылка
P.S Возможна некоторая деградация качества для больших чисел, постараюсь поправить в будущих релизах.
@den4ikresearch
https://x.com/taras_y_sereda/status/1786727753200410833?s=46&t=7jwH29MvU0R301CgvqVBYw
Читать полностью…RUPunct v1 - Набор моделей для расстановки знаков препинания
В опенсурсе не так много моделей для расстановки знаков препинания. Самые популярные - SbertPuncCase от kontur-ai, Silero_te от команды Silero и Rubert Punc. У них есть четыре недостатка: большой размер (SbertPuncCase), низкое качество (Silero), использование очень тяжёлых фреймворков, таких как Nemo (Rubert Punc) и малый охват знаков препинания (SbertPuncCase)
Результат своих попыток сделать что-то лучше я решил выложить в открытый доступ.
На данный момент доступны 3 модели:
- RUPunct_big (178M параметров)
- RUPunct_medium (60M параметров)
- RUPunct_small (30M параметров)
Метрики и сравнения с другими моделями вы можете видеть на прикреплённых скриншотах.
Обучались модели на датасете состоящим из:
- Новости
- Книги
- Wikipedia
- Сказки Стенограммы записей из Госдумы
Общий размер датасета - 4ГБ.
Скрипты обучения, разметки, датасеты будут выложены с выходом статьи на Хабре.
Модели можете потыкать тут: ссылка
Ссылка на аккаунт со всеми моделями: ссылка
@den4ikresearch
И там ещё Instruct модели на 270М параметров подъехали от эпла
https://huggingface.co/apple/OpenELM-270M-Instruct
Diffusion Models for Video Generation
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
VoiceCraft released 830M model
https://huggingface.co/pyp1/VoiceCraft_830M_TTSEnhanced
Triton inference server для OpenAI Whisper
Я продолжаю медленно, но верно публиковать код, который был в langswap.app . Вот ещё одна частичка инфраструктуры - распознвалка речи, завёрнутая в triton.
Зачем нужен Triton?
Triton сильно ускоряет инференс моделей, так как написан на C++. Это просто сервер, который быстро работает. Второй плюс - если у вас моделька в onnx/tensorrt, то серверная часть не будет тянуть за собой питон. Но это в теории.
Как устроено?
Triton server поддерживает определённую структуру папок и несколько форматов сериализации моделей. PyTorch - один из них.
Чтобы запустить тритон, нужно положить модель в папку
model_repository/model_name/version/your_model.onnx
Introducing Meta Llama 3: The most capable openly available LLM to date
Выпустили новую ллмку. Качайте веса 🙂
https://ai.meta.com/blog/meta-llama-3/
Открытый бета-тест RUNorm
Последние несколько месяцев я работал над библитекой нормализации текста перед TTS.
> Зачем это нужно?
В текстах есть много различных моментов, которые стандартный синтезатор речи не озвучит:
1. Сокращения. Помимо сокращений имеющие одно значение (например "т.д" - так далее), есть и многозначные "г." (город или год)
2. Числа. Числа также нужно озвучивать по-разному, в зависимости от контекста. Например, "В школе у меня одни 5" можно озвучить как "В школе у меня одни пять/пятёрки", а "Живу на 5 этаже" надо озвучить как "Живу на пятом этаже"
3. Английские слова. "Котики кушали whiskas" -> "Котики кушали вискас/уискас"
И это самая малая часть. Есть и номера телефонов, номера банковских карт, валюты
> Как работает у меня?
Либа состоит из 5 частей:
1. Рулового пайплайна
2. Нормализатора английских слов
3. Нормализатора чисел
4. Нормализатора сокращений
5. Тэггера, который помечает сокращения
Сначала руловый пайплайн нормализует валюты и номера телефонов, после чего нормализуются числа и английские слова. Далее, текст отправляется в тэггер и нормализатор сокращений.
Подробный рассказ будет в длиннопосте, с релизом.
Вы можете протестировать бета-версию в телеграм-боте: @runorm_bot.
Буду благодарен за фидбек в комментариях
@den4ikresearch
📚Tutorial on Diffusion Models for Imaging and Vision
В копилку к посту с туториалами и блогпостами по Диффузионным Моделям, принес вам еще свежий туториал на 50 стр из Purdue University.
Полезная штука для всех начинающих с диффузией. Туториал включает базу по VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам.
📖 Pdf
#ликбез
@ai_newz
Stanford перезапускает курс по трансформерам!
https://x.com/stevenyfeng/status/1775972154938659184?s=46&t=94BOoxerM0AX8_uijdoGyA
Для тех, у кого не открывается твиттер, вот текст:
We are bringing back Stanford's CS 25 Transformers Course (cs25.stanford.edu) for Spring 2024! This is one of @Stanford's hottest seminar courses. We are opening the course through Zoom to the public. Lectures start today (Thursdays), 4:30-5:50pm PDT, at stanford.zoom.us/j/99922151759?…. Talks will be recorded and released ~2 weeks after each.
Each week, we invite folks at the forefront of Transformers research to discuss the latest breakthroughs, from LLM architectures like GPT and Gemini to creative use cases in generating art (e.g. DALL-E and Sora), biology and neuroscience applications, robotics, and so forth!
CS25 has become one of Stanford's hottest and most exciting seminar courses.
Our class has an incredibly popular reception within and outside Stanford, and around 1 million total views on YouTube https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM Our class with @karpathy was the second most popular YouTube video https://www.youtube.com/watch?v=XfpMkf4rD6E uploaded by Stanford in 2023 with over 500k views!
We have significant improvements this time, including a large lecture hall, professional recording and livestreaming, and so forth. Also, livestreaming and auditing are available to all. Feel free to audit in person or by joining the Zoom livestream.
discord.gg/2vE7gbsjzA
More details: cs25.stanford.edu
Аудиоэнкодер на 240М параметров от команды Prod ML SberDevices — берите и пользуйтесь :)
Ребята также затюнили его на задачи распознавания речи и распознавания эмоций. Получилось лучше других открытых моделей.
Хабр: https://habr.com/ru/companies/sberdevices/articles/805569/
GitHub: https://github.com/salute-developers/GigaAM/
GitVerse: https://gitverse.ru/GigaTeam/GigaAM
Анонс на YouTube: https://www.youtube.com/watch?v=ktO4Mx6UMNk&list=PLJU_M19giWaHcqm7mVWuankpQwSgvR-CQ&index=4
Какой может быть новая Siri?
Вышел пейпер от Apple про их новую модель ReALM. Я недавно писал про то, как Bloomberg пытались тренировать свою модель, и то, как у них это не получилось. Но Apple доказали, что при грамотном тюнинге даже ну ооочень маленькой моделью в 80М можно догнать или даже обогнать флагманские LLM а определенных задачах.
Так вот, новая Siri обещает очень ловко справляться с UI. А учитывая тот факт, что Apple – это крупнейшая экосистема, то у Siri будет доступ ко всему, что вам может понадобиться. От голосового управления календарём до составления плейлистов в iTunes (но пока это все фантазии).
Вообще, в статье описывается интересный метод для взаимодействия LLM с UI. На вход принимаются скриншоты, и с них в тупую собирается весь текст. Далее текст идет на анализ в LLM, и та, основываясь на инпуте юзера и тексте с экрана, решает, что делать и как отвечать.
Пока нет прямого управления UI, чтобы агент прям сам запускал какую-то работу в приложении. В статье пока только примеры того, как модель собирает информацию с экрана и выводит релевантный ответ. Например, собирает адреса с сайта, который сейчас на экране. Суть в том, что потом это можно будет использовать для таких запросов, типа: "Напиши второму в этом списке контактов, что созвон в 14:00". Пока они учат понимать, что происходит на экране.
Очень жду крутые анонсы WWDC в июне!
Пейпер
@ai_newz
You Only Cache once
У трансформеров есть беда с потреблением памяти на длинных контекстах. Карта attention это квадрат от длины входа. В Майкрософт предлложили как сделать модель О(1) по памяти и скорости инференса. И ограничения по длине контекста тоже уходят в небытие. Надо сказать что результаты многообещающие.
https://arxiv.org/abs/2405.05254
https://github.com/microsoft/unilm/tree/master/YOCO
Кто-то хочет в СФ на хакатон по ЛЛаМе от Меты? Это уже на следующей неделе 🤖
https://partiful.com/e/p5bNF0WkDd1n7JYs3m0A
Introducing google vids
Гугл представила новый инструмент для создания видео из презентаций. Довольно симпатичный и интересный. Эх, скоро все будем клепать красивые видосики!
https://youtu.be/4SCjXcBeW1E?si=GaMBkzNMlMkzfFOI
Department of Homeland Security сказал что вот эти люди будут решать что может знать AI, а что не может.
Кто-нибудь знает что тут делает CEO авиалиний?)
Люди в Твиттере: если вы посмотрите на левый угол его глаза, радужка расходится, а также световой рисунок не согласуется. Это ИИ.
Люди на Фейсбуке после того, как увидели питбуля, молящегося в церкви с крыльями: Аминь 🙏 как вы научили свою собаку делать это, пришлите советы 🕊
Сейчас пользуюсь вот этим денойзером. Он супер.
https://github.com/yxlu-0102/MP-SENet
Чего не хватает в синтезе речи?
На днях я тут увлёкся генерацией картинок и был поражён тем, насколько огромное коммюнити у стабильной диффузии. Тут вам и web UI не только для генерации, но и для файнтюна Stable Diffusion. Причём сразу с LoRA, со всеми шедулерами, с заполнением промпта. Это примерно то, чего у нас в обработке речи даже с поиском по гитхабу не всегда найдёшь.
И вот вам прецедент: ко мне в компанию наняли автора с civit.ai без технического бекграунда. Парень пришёл из живописи к нам.
Так вот, чего нам не хватает в синтезе? Не хватает этих вот WebUI, которые дают обучить свою XTTS на 20 семплах своей речи и скопировать какой-то дикий стиль из игры. И кучи ютюб видео, которые объясняют как это дело запустить на микроволновке.
Microsoft показал нейронку 🏺VASA:
Даете ей на вход фото и аудио дорожку, а на выходе получаете слишком реалистичное видео, которое в очередной раз перепугает половину интернета ☕️
Кода пока нет, больше примеров тут:
https://www.microsoft.com/en-us/research/project/vasa-1/
Zero shot learning - обучение без данных или когда их очень мало. Презентация
Контрастное обучение, обучение метрики, обучение по примеру и обучение на маленьком количестве примеров. Что это за слова и как их использовать чтобы сделать нейросети лучше. Выступление было подготовлено для ProIT Fest далёким летом 2023.
Таймкоды:
00:10 Начало
02:54 Небольшое введение в нейросети
07:32 Слабые стороны Нейросетей
8:45 Идея Zero-shot learning
12:35 Metric Learning
14:40 Контрастное обучение
17:50 CLIP
26:40 Верификация по голосу
29:56 d-vector
32:10 Клонирование речи
33:45 Masked Zero Shot Learning
36:46 Вопросы и ответы
https://youtu.be/tZOoTjj-zdI
Idea is relevant. Results are somewhat mixed.
https://arxiv.org/abs/2404.06714
Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness
Xincan Feng, Akifumi Yoshimoto
Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.
Вышла Parler TTS демо (веса, код, промпт)
Помните пост про генерацию TTS с заданными параметрами и, может быть, помните пост про MusicGen? Это вот все от них пошло.
🐢Для чего можно юзать? 🐢
- прогнать по параметрам исходную речь, прогнать сгенерированную - сравнить
- прогнать на весь датасет - отфильтровать странные семплы
Выкатили код и демо. Сказать честно, демо хорошее на чирипукнутых, а вот на мой промт: "A female speaker with a very high-pitched voice, the speech is very fast. The speaker is sad. She even cries." получила какую-то веселую девушку с нормальными даже низким питчем. Сейчас доступно только пару параметров (pitch, snr, speaker rate, reverbation).
WavLLM
https://arxiv.org/abs/2404.00656
https://github.com/microsoft/SpeechT5/tree/main/WavLLM
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
https://arxiv.org/abs/2404.02258