voicestuff | Unsorted

Telegram-канал voicestuff - Voice stuff

1256

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Subscribe to a channel

Voice stuff

Playground выпустили новую модель. Могут потягаться с SDXL и с SD3. Хорошо работают тексты и качество генерации на высоте. Уступает Flux, но зато есть статья, которая описывает что они там сделали.

https://arxiv.org/pdf/2409.10695

Весов пока не нашёл, но обычно выкладывают.

Глянуть где она на фоне остальных моделей можно здесь
https://artificialanalysis.ai/text-to-image/arena

Читать полностью…

Voice stuff

Не хочется скидывать вам новости, о которых уже сказали из каждого утюга. Но вот там вышла Ллама 3.2, которая по точности не уступает gpt-4o mini. Уверен, мне такая моделька пригодится когда я буду обрабатывать, отсеивать и описывать датасет из кучи картинок.

Читать полностью…

Voice stuff

Winamp Legacy player source code is now open (🔥 Score: 150+ in 52 minutes)

Link: https://readhacker.news/s/6f74n
Comments: https://readhacker.news/c/6f74n

Читать полностью…

Voice stuff

Пока листал утреннюю ленту, нашел вам ещё парочку

Читать полностью…

Voice stuff

Pallete vs RGB

Сегодня я узнал что есть цветные одноканальные изображения. И что они даже выглядят хорошо.

Способ следующий. Cокращаем весь динамический диапазон до 256 цветов. Любых. Постеризация, другими словами. Все эти цвета записываем в табличку соответствия, а цифры на картинке теперь обозначают номер цвета, а не яркость отдельных каналов. Сохраняем 1D картинку и табличку в нём.

Два изображения в посте сохранены именно таким способом.

Размер изображения сравним с JPEG

Читать полностью…

Voice stuff

Сегодня будут мемы только про чатжпт-о1

Читать полностью…

Voice stuff

Лучший superresolution, который мне доводилось использовать.
Изображение слева во что только не преваращалось. И в белых, и в азиаток, и в аниме-гёрл. Вот эта моделька пока первая на моей памяти, которая достоверно восстанавливает это лицо. И с другими тоже хорошо работает.

https://arxiv.org/pdf/2401.13627
https://github.com/Fanghua-Yu/SUPIR

Попробовать можно вот тут
https://supir.suppixel.ai

Читать полностью…

Voice stuff

RUPhon - новый открытый IPA фонемизатор для русского языка!

Совместно с @intexcp мы разработали RUPhon - библиотеку для фонемизации русского текста, использующую модели RUAccent-encoder. Модель поддерживает два языка: русский и английский.


Ключевые особенности

1. Модель может обрабатывать ударения на входе
2. Модель имеет относительно небольшой размер (от 55 до 120 мегабайт)


Метрики (F1)

charsiuG2P -> 0.9236
Omogre -> 0.9601
ru_g2p_ipa_bert_large -> 0.9868
RUPhon-small -> 0.9970
RUPhon-big -> 0.9990


А если вы хотите автоматически расставлять ударения, установите RUAccent и используйте его вместе с RUPhon!

Ссылка на библиотеку: https://github.com/Den4ikAI/ruphon
Донат: https://pay.cloudtips.ru/p/b9d86686

@den4ikresearch

Читать полностью…

Voice stuff

китайцы релизнули 4оmni дома, аудио на вход и выход, одной моделью генерят аудио и парсят аудио в текст. Завели на qwen500m, звучит хорошо
github

Читать полностью…

Voice stuff

Самолёты, на которых мы летаем, довольно крутые.

Вроде как на них нельзя делать фигуры высшего пилотажа, и я всегда думал что они как автобусы. Сейчас изучаю каналы лётчиков и вижу что не каждый даже реактивный самолёт умеет подниматься на высоту 8км. При этом, все пассажирские самолёты летают на высоте 11км. На скорости 1000км/ч - практически трансзвуковой. Такое тоже не все самолёты умеют.


А вспомнил я это потому что мой самолёт после взлёта, сразу стал поворачивать на курс под очень опасным углом, набрав всего 100м высоты и 250км/ч скорости. Видел много видео на ютюбе что так делать нельзя, т.к. подъемной силы может не хватить и самолёт упадёт.

Понятное дело что манёвр безопасный, я просто восхитился тому что, казалось бы, обычный А319 получается совсем не деревянный и может потягаться с кукурузниками в маневренности.

Читать полностью…

Voice stuff

Встречи с Илюхой!
В Москве я не догадался проводить офлайн встреч, додумался хотя бы в путешествии.

С 1 по 8 сентября буду в Берлине
С 8 по 15 сентября в Барселоне

Если вы там живёте или недалеко обитаете - напишите, я бы хотел встретиться на кофе и на прогулки. В другие города тоже зовите, есть шанс что прилечу!

@frappuccino_o

Читать полностью…

Voice stuff

Дуров освобожден из зала суда

Читать полностью…

Voice stuff

Сжимал на днях 75Гб данных через zip. Дело что очень долго и пока я ждал, chatGPT предложила мне попробовать zstd. Надо сказать, zstd обогнала zip в сжатии даже учитывая гораздо более поздний старт.

Почитать:
https://github.com/facebook/zstd

Использовать:


tar -I zstd -cvf archive.tar.zst files # compress

tar -I zstd -xvf archive.tar.zst # uncompress

Читать полностью…

Voice stuff

Как правильно потратить 5 миллиардов фунтов стерлингов на улучшение сервиса?

А: ускорить поезд (что и было сделано)

или

Б: провести в поезд wifi, нанять топ-моделей раздавать бокалы шикарного вина по этому поезду и сохранить 4 миллиарда фунтов

Очень люблю эту зарисовку.

Читать полностью…

Voice stuff

Есть такой датасет LAION, в котором дамп интернета с кучей фотографий. И вот до сих основным подходом в обучении сеток по генерации изображений считается взять этот дамп, почистить его и обучить на нём генерацию картинок.

Чистку предлагается делать классификаторами вроде CLIP затюненными на aeasthetic score. Мол если 1 - то это неэстетичные фотографии, а если 9, то очень эстетичные.

Я не знаю как объяснить насколько это проигрышная стратегия. Изображений там может быть и много, но среднее качество картинок в интернете это просто швах. Во-первых, картинки многократно пережаты. Во-вторых, большинство интернета - это прон.

Окей, отфильтровали мы по размеру картинки, убрали дубликаты, отсортировали по aesthetic score и выкинули прон. Осталось 100К изображений дай боже. Потратили на это кучу вычислительных часов.

Но как насчёт изначально напарсить 100К картинок таких, чтобы были сделаны только на зеркальные камеры? Любой сайт для фотографов имеет такое количество. Там тебе и разрешение 4К+ и объекты красивые и нет рекламы FONBET на каждом изображении и других графических спецэффектов. Есть, конечно, свои проблемы вроде виньетирования, плёночного зерна, ЧБ и недо-/переэкспонирования. Но всё ещё гораздо лучше. Я сейчас пробую и вам опишу результаты.

Чтиво:
https://www.reddit.com/r/StableDiffusion/comments/1dbasvx/the_gory_details_of_finetuning_sdxl_for_30m/

Читать полностью…

Voice stuff

https://silent.link/

Читать полностью…

Voice stuff

В Америке сильно повышается популярность Испанского. Кажется он станет либо вторым официальным языком, либо основным.

Кстати, на федеральном уровне в Америке нет национального языка. Хотя Английский де-факто национальный язык. Каждый штат выбирает свой язык и всего 32 штата из 50 выбрали англ основным языком.

Читать полностью…

Voice stuff

👀 Случайно нашел весьма полезную статью - обзор на foundtion модели в музыке. Она прямо таки новая, от 3го сентября. Нашел ее пока смотрел цитирования другой статьи) Совет - смотрите цитирования статей, которые вам понравились.

В статье и про музыкальные репрезентации, и про понимание музыки моделями, и про датасеты, и про подходы для обработки/генерации музыки и их проблемы. Также отдельно рассматриваются состовляющие музыки: вокал, аккомпонемент, ноты. Надеюсь прочтение поможет придумать ту самую идею для ризерча.

#аудио #статьи

Читать полностью…

Voice stuff

Заходишь такой в забегаловку, там на каждом углу написано что они зелёные и за спасение планеты. Приносят тебе еду в тарелке из биоразлагаемого пластика, на котором это 10 раз написано, пьёшь напиток из одноразовой бутылки, на которой написано "утилизировать" из бумажной трубочки. Вручают одноразовые бумажные салфетки.



Заходишь в ресторан. Там на керамических тарелках и в стеклянных кружках тебе подают еду. Металлические приборы лежат на хлопковой салфетке. Воду налили из кувшина. Ни слова про защиту планеты и зелёность.

И кто тут более сделал для планеты?

Читать полностью…

Voice stuff

https://github.com/lucidrains/e2-tts-pytorch

Свежий ТТС от lucidrains

Читать полностью…

Voice stuff

Про OpenAI O1

Идея использовать цепочку мыслей не нова, и довольно эффективна. Рад что инженеры справились с тем чтобы обучить это на куче примеров и на огромном контекстном окне.

Что меня действительно заинтриговало, так это релиз Reflection-70B неделей ранее. У меня было две версии в голове:

Либо OpenAI ждала пока open-source догонит их модели чтобы всегда иметь возможность выпускать что-то лучше.

ЛИБО

Вдохновившись постом Мэтта Шумера https://x.com/mattshumer_/status/1831767014341538166, они доучили свою GPT-4o на то чтобы она делала то же самое. В целом, эта версия - причина, по которой я побежал читать репорт.

Оказалось что, конечно же, у openAI свои новаторские идеи и идеи рефлекшена и О1 пересекаются, но не одинаковые. Но было бы очень смешно если нет.

Читать полностью…

Voice stuff

Новая ава тянет на мем?

Читать полностью…

Voice stuff

Чем сильна Америка?
Раньше я думал что у Америки самые хорошие технологии. Это не совсем так. Я увидел компании с лучшими технологиями, которые всё ещё отстают от других. Вот есть айфон, а есть корейский samsung galaxy и китайский Huawei.

Может, главная их движущая сила не технологии, а хорошие продукты? Сейчас я вижу что и продукты могут быть замечательными, но сильно уступать по капитализации. Вот есть Тинькофф банк, а есть ВТБ.

Потом я прилетел в Сан-Франциско и увидел самое высокое и красивое здание там. Знаете кому принадлежит? Salesforce. В Америке самые хорошие продажники во всём мире. Хорошо продавать - это в американской культуре.

Читать полностью…

Voice stuff

Какая неэффективная защита города от дождя

Читать полностью…

Voice stuff

Самое непривычное в Европе - это то, что не надо переключать VPN.

Читать полностью…

Voice stuff

Всё благодаря вашим мемам, друзья

Читать полностью…

Voice stuff

Показывайте свои лучшие мемы про арест Дурова

Читать полностью…

Voice stuff

Качинский утверждал, что современные люди в депрессии, потому что все сложные проблемы мира уже решены. Остались только слишком легкие, либо невозможные проблемы, и заниматься обоими этими задачами глубоко неудовлетворительно.

Например, то, что вы можете сделать, даже ребенок может сделать; то, что вы не можете сделать, даже Эйнштейн не смог бы сделать

Из книги. Peter Thiel. Zero to one

Читать полностью…

Voice stuff

Всё по делу говорит.

https://switowski.com/blog/no-hello-no-quick-call-no-agendaless-meetings/

Читать полностью…

Voice stuff

📰 OpenAI - Putting AI to work at Upwork


https://openai.com/index/upwork

Читать полностью…
Subscribe to a channel