voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Кто знает какие есть удачные открытые модели для перевода текстов? Хочется по качеству чтобы было как deepl/google translate. Надеюсь я не слишком многого хочу.

Нужно чтобы были веса. Ограничения на размер - должно влезть на 24Гб карточку. Но скидывайте всё подряд, я разберусь что потянет, а что нет.

Из того что я пробовал - Seamless M4T. Очень слабый.

И чтобы два раза не ходить. Модели для липсинка тоже посоветуйте пожалуйста. Очень нужны. Сервисы с API тоже подойдут.

Читать полностью…

Voice stuff

Паблики фейсбука тоже открыли для себя txt2vid технологии ☕️

Читать полностью…

Voice stuff

🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Depth-dev-lora


https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev-lora


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Canny-dev-lora


https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev-lora


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Depth-dev


https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Canny-dev


https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Redux-dev


https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Fill-dev


https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev

Читать полностью…

Voice stuff

Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz

Читать полностью…

Voice stuff

Mochi
Появляется всё больше и больше доступных генераторов видео. Вот этот полностью опенсорсный, с хорошей квантизацией и даже с приличным качеством.

Моделька с 10Б параметров запускается в fp16 на RTX4090.

Прислал @Mr_fries1111

https://huggingface.co/genmo/mochi-1-preview

Присылайте в комменты ваши генерации 🙏

Читать полностью…

Voice stuff

Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения https://opennet.ru/62170/

Читать полностью…

Voice stuff

Вышла SD 3.5 😍

https://stability.ai/news/introducing-stable-diffusion-3-5

Смотрите какие результаты она выдаёт по запросу

A business woman counting her fingers

Читать полностью…

Voice stuff

Computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (🔥 Score: 178+ in 57 minutes)

Link: https://readhacker.news/s/6gFKX
Comments: https://readhacker.news/c/6gFKX

Читать полностью…

Voice stuff

After spending some hours on F5, I found passion to finalize this small post. I'm telling this for quite some time already though.

https://alphacephei.com/nsh/2024/10/18/tts-design.html

Читать полностью…

Voice stuff

Из реализации FLUX в diffusers

Читать полностью…

Voice stuff

Еще одну SOTA мультимодальную зарелизили. Бьет много каких моделей.

https://huggingface.co/rhymes-ai/Aria

Читать полностью…

Voice stuff

https://github.com/SWivid/F5-TTS

A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

This paper introduces F5-TTS, a fully non-autoregressive text-to-speech system based on flow matching with Diffusion Transformer (DiT). Without requiring complex designs such as duration model, text encoder, and phoneme alignment, the text input is simply padded with filler tokens to the same length as input speech, and then the denoising is performed for speech generation, which was originally proved feasible by E2 TTS. However, the original design of E2 TTS makes it hard to follow due to its slow convergence and low robustness. To address these issues, we first model the input with ConvNeXt to refine the text representation, making it easy to align with the speech. We further propose an inference-time Sway Sampling strategy, which significantly improves our model’s performance and efficiency. This sampling strategy for flow step can be easily applied to existing flow matching based models without retraining. Our design allows faster training and achieves an inference RTF of 0.15, which is greatly improved compared to state-of-the-art diffusion-based TTS models. Trained on a public 100K hours multilingual dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless code-switching capability, and speed control efficiency. Demo samples can be found at https://SWivid.github.io/F5-TTS. We will release all code and checkpoints to promote community development.

Читать полностью…

Voice stuff

Почему модели генерации изображений не умели генерировать тексты?

Я всегда думал что это просто недостаточный обучающий сет, либо задача слишком сложная, либо разрешение латентов недостаточное. И у меня даже был план обучить SDXL на текстах и сгенерировать датасет для этого (картинка прилагается. Но там всё неправильно)

Оказалось что просто CLIP энкодер слабоват. Генерация изображений нормально работает только с хорошим энкодером текстов. Во ВСЕХ работах, где заменяли CLIP на T5 или на что-то подобное, тексты генерируются хорошо.

Причём, можно выбросить вообще оба CLIP энкодера из SDXL и оставить только один T5 и всё равно будет лучше типография.

Ключевая статья:
https://arxiv.org/html/2403.09622v1

Другие примеры помимо FLUX и SD3:
https://github.com/deep-floyd/IF
https://github.com/TencentQQGYLab/ELLA

Читать полностью…

Voice stuff

🤯 Энтузиаст дропнул запрос, который помогает Claude 3.5 Sonnet превзойти OpenAI o1 в рассуждениях! Промпт запускает целую цепочку мыслей из 20-50 шагов перед тем, как выдать ответ.

В некоторых тестах такой подход позволил Claude 3.5 Sonnet достичь уровня GPT-4 и o1. Запрос будет работать не только в Claude, но и во многих других LLM, чтобы поднять их эффективность на максимум.

Сохраняйте, чтобы попробовать — тут.

_______
Источник | #notboring_tech
@F_S_C_P

Стань спонсором!

Читать полностью…

Voice stuff

Единственный рабочий Text Inversion для SDXL, который я нашёл.

https://github.com/oss-roettger/XL-Textual-Inversion

Читать полностью…

Voice stuff

Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

Читать полностью…

Voice stuff

Я настолько увлекся разными Coding Copilots, что решил создать отдельный awesome list на GitHub, чтобы и вы были в курсе: https://github.com/ifokeev/awesome-copilots

Читать полностью…

Voice stuff

📰 HuggingFace - From Files to Chunks: Improving Hugging Face Storage Efficiency


https://huggingface.co/blog/from-files-to-chunks

Читать полностью…

Voice stuff

Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.

Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.

Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.

Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.

Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main

Читать полностью…

Voice stuff

У fishaudio вышло ещё одно обновление.


https://github.com/fishaudio/fish-speech

Читать полностью…

Voice stuff

Spam is a scam
Зачем перекладывать подозрительную почту из одного ящика в другой если ненужная почта оседает в обоих ящиках, а второй ящик всё равно нужно проверять?

И главное, нигде не нашёл чтобы эта функция выключалась. Тут особняком стоит gmail, где спам фильтр хотя бы работает.

Читать полностью…

Voice stuff

Книга о том как обучать LLMs

https://arxiv.org/abs/2408.13296

Читать полностью…

Voice stuff

В ВК сейчас есть грантовая программа по созданию каналов. Может кто-то хочет со мной побрейнштормить идею видео проекта? Как вы помните, я верю в контент и очень люблю это.

Это может быть что-то, что вы хотели бы видеть на вк/ютюбе, не обязательно что-то, в чём вы хотите участвовать.

Идеи присылайте на @frappuccino_o

https://vkvideo.vkgrants.ru/

Читать полностью…

Voice stuff

Nvidia выпустила какую-то очень крутую модель для генерации изображений. Я ещё не игрался, но вы просто почитайте аннотацию.

https://nvlabs.github.io/Sana/

Читать полностью…

Voice stuff

Модель, которая позволяет не только сказать что звуковое событие было, но и сказать в какой промежуток времени оно случилось. При этом, модель обучается без этой самой разметки на таймкоды событий.

https://github.com/Audio-WestlakeU/audiossl

Читать полностью…

Voice stuff

В стартаперских любят обсуждать истории как компании годами ищут PMF перед тем как у них выстреливает, и это такой вдохновляющий путь героя. Но долгие поиски не всегда хороши для компании.

Скажу неочевидный аспект, у команды заканчивается вестинг.

Стандартные условия для стартапов: 1 год клиф, и 4 года линейный вестинг. То-есть через год сотрудник получает 25% и дальше каждый квартал еще по 6.25% (от количества ему обещанного).


Можно фантазировать почему c-level в OpenAI исчезает как офицеры со снимков Сталина, но мне кажется не последнюю роль здесь играет, что компании уже 9 лет. Грег Брокман был там с самого начала, Мира Мурати с 2018, все что могло отвеститься у них уже отвестилось, они получили свои стоки и кроме зп больше нет инцентива оставаться в компании. То-есть они легко могут переключится на более привлекательные возможности, а кто-то другой уже будет повышать стоимость их эквити.

Кто-нибудь знает пути как это решать? Кроме как выпуска новых акций которые размоют всех.

Читать полностью…

Voice stuff

Sound examples are greatest I’ve ever heard.

Читать полностью…

Voice stuff

⛔ Сколько человек сказало вам нет?

Всем стартаперам посвещается:

1. Если есть отказы — то ты хоть что-то сделал, а если их нет, то ты нихера не делал.

2. Если нет отказов — значит, ты не пробовал продать. Даже 1к рублей наликом продать за 100 рублей на улице очень сложно. Надо получить явный отказ — это показатель, что ты наконец-то начал искать реальную ценность.

3. Один чел ко мне три раза приходил с ботом для аватарок. Я рассказал, что можно улучшить, и на этом диалог кончился. Но с меня не попросили денег, не попросили пошерить друзьям. Не получили ЯВНЫЙ ОТКАЗ.

4. У тебя конверсия 2-3% в продажу в лучшем случае, поэтому тебе надо получить 97 РЕАЛЬНЫХ отказов, чтобы заработать.

5. Ща будет сексизм, сори, может так вы лучше поймете:

Подошел на дискотеке, потанцевал в клубе рядом с девушками, ни с одной не поговорил, не предложил поехать к тебе и считаешь, что сделал пикап подход?

Но это не подход, а херня, ты просто потратил денег на вход и коктейли.
Wake up, Neo! 🐇


Автор: @scrnsht

Читать полностью…

Voice stuff

Were RNNs All We Needed?

Статья о minLSTM и minGRU. Исследователи проделали хорошую работу и изучили чем именно хороши трансформеры и мамба. Покумекали и решили что главная беда LSTM в том, что backpropagation там идёт через токены по времени и из-за этого они медленные капец. Убрали зависимость от предыдущих токенов и назвали minGRU. Напомню, что трансформеры параллельные и обучаются на всей последоватеьности за один такт видеокарты, закрывая токены маской.

Автор этого канала читает только abstract и картинки, поэтому в том как устроена minGRU он до конца не разобрался. Но приглашает вас нарисовать свою схемку в комментариях и всё пояснить.

https://arxiv.org/pdf/2410.01201

Читать полностью…

Voice stuff

New Whisper model large v3 turbo

https://github.com/openai/whisper/pull/2361

Читать полностью…
Subscribe to a channel