toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

@toshoseti

Читать полностью…

То шо нейросети

Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!

Что внутри Dia

Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Descript.

Первый шагбайтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.

Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.

Финальный этапDescript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.

Как научить Dia русскому 📖

По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Descript-кодек трогать не надо — он уже умеет восстанавливать волну.

Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.

Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.

Читать полностью…

То шо нейросети

Для "телепатии" осталось "лишь" придумать кодек.

Читать полностью…

То шо нейросети

Наткнулся на интересное: альтернатива Bloom фильтру. Преимущество - меньше space overhead (~1-10%) вместо 20%+ традиционного Bloom filter при низком false positive rate.
https://arxiv.org/abs/2103.02515

На пальцах: Пользователь забыл пароль и восстанавливает по имени элпочты. Вам нужно проверить, например, есть ли пользователь с зарегистрированной почтой по-быстрому. Вы строите Bloom filter\Ribbon filter и он дает вам гарантию, что если почты в базе нет, то он точно это покажет без обращения к базе, в противном случае может сказать что есть, но это может быть False Positive, нужно руками проверять дальше кеш, и если cache miss, то БД. Таким образом при низком False Positive rate вы существенно снижаете нагрузку на вашу инфру по этому виду запроса. Есть море других применений и аналогов.

@toshoseti

Читать полностью…

То шо нейросети

Как ComfyUI, но для Agentic систем. Не n8n конечно, но тоже вполне себе.

Читать полностью…

То шо нейросети

🪰 Виртуальная дрозофила: зачем DeepMind «оживили» плодовую мушку — и что это даёт науке

Кратко: исследователи создали самую точную на сегодня цифровую модель Drosophila melanogaster.

Она умеет ходить, летать и ориентироваться в пространстве. Её «тело» рассчитано в физическом движке MuJoCo, а «мозг» — нейросеть, обученная на реальных видеозаписях поведения мух.

🌟 Как это сделали:
1) Физика тела
Исследователи запрограммировали 52 степени свободы суставов, добавили моделирование аэродинамики крыльев и «клейких» лапок-актуаторов, имитирующих силу сцепления с поверхностью.
Источник: Nature

2) Нейроконтроль
Нейросеть обучалась на сотнях видеозаписей реальных траекторий и затем управляла виртуальной мухой в MuJoCo, выбирая, как двигать крыльями и лапками в каждый момент.

3) Зрение
Виртуальные фасеточные глаза передают изображение контроллеру: модель может следовать по заданной траектории и корректировать курс по ходу движения.

4) Открытый код
Весь проект опубликован на GitHub (flybody) под лицензией Apache-2.0 — можно запускать симулятор, писать собственных агентов и экспериментировать с поведением мухи.

✔️Зачем это нужно

▪️ Нейронаука без электродов.
Модель — это «песочница», в которой можно виртуально перерезать нервы, добавлять шум, менять форму крыла и мгновенно видеть, как это влияет на поведение. Такие эксперименты на живых организмах часто невозможны.

▪️ Тест-полигон для ИИ и робототехники.
Готовая референс-модель движений и сенсорики, вдохновлённая природой — идеальна для обучения автономных систем.

▪️ От мушки к зебре — и дальше.
Методика уже применяется к виртуальным грызунам, а следующим объектом станет зебра-данио (у неё 70 % белков кодируются теми же генами, что у человека). Это даёт уникальную возможность изучить, как мозг приспосабливается к различной морфологии тела — не выходя из симулятора.
Источник: Janelia Research Campus

🔥 Что это даёт
▪️ Исследователи получают бесплатный инструмент для быстрой проверки гипотез о связке «нейроны → движение».

▪️ Робототехники — возможность адаптировать природные механизмы управления и баланса.

▪️ Для нас— ещё один пример того, как ИИ позволяет разбирать живые системы на компоненты, не причиняя вреда природе.

✔️ Посмотреть код, скомпилировать модель и погонять виртуальную мушку можно уже сейчас:

🔜 GitHub
🔜 Статья в Nature

@ai_machinelearning_big_data


#DeepMind #nature #science

Читать полностью…

То шо нейросети

Pen & Paper
Exercises in Machine Learning
Michael U. Gutmann

Только вы, ручка, бумага и ваша хрупкая самооценка.

@toshoseti

Читать полностью…

То шо нейросети

Поспали? Читаем про ту батарейку, что заряжали пока спали – ее как раз возможно нашли ученые:

Это не какой‑то скрытый аккумулятор, а обычная миелиновая оболочка, то есть «изоляция» вокруг нервных волокон (как в проводах). Учёные заметили, что внутри этой оболочки есть белки‑губки, способные «впитывать» крошечные частицы‑протоны. Пока мы спим, дыхательная цепочка тихо гонит протоны к этим белкам, что-то вроде насоса который качает воду в высокий водяной бак на крыше. Получается, что миелин за ночь «напитывается» положительным зарядом

Когда мы просыпаемся, протоны начинают стекать обратно через миниатюрные «турбины» – молекулы АТФ‑синтазы (белковый «моторчик» встроенный в клетки). Турбина крутится, и из её работы получается АТФ – универсальная энергетическая монета для клеток. По специальным каналам эта свежая «мелочь» сразу поступает в аксон (проводник нервных сигналов), чтобы тот мог быстро передавать сигналы. Если такой поток блокируется, например особым жирным веществом олеамидом, каналы закрываются, и мозг как бы сам принудительно уходит в режим экономии, то есть в сон.

Учёные прикинули, сколько зарядов миелин успевает набрать за ночь: цифра почти совпала с тем, сколько он в принципе способен удержать. Это объясняет, почему человеку обычно нужно около восьми часов сна – столько времени уходит на полную «подзарядку» изоляции. Интересно, что животные с меньшим объёмом белого вещества (грубо говоря, с тоньшей «изоляцией») спят дольше: их батарейка меньше, и чтобы наполнить её до краёв, требуется больше времени – в посте как раз картинка этой связи, красным подчеркнул то сколько в % спит животное из 24 часов

Если не давать себе спать, запас быстро опустошается, белки теряют заряд, слои миелина начинают сближаться, и оболочка утоньшается – именно такую картину врачи видят на МРТ у людей после бессонных ночей

Получается, что сон нужен мозгу не только «переварить» впечатления дня, но и буквально зарядить свою внутреннюю энерго-станцию, чтобы наутро нервные волокна вновь могли молниеносно передавать мысли, чувства и команды телу

Тут на сложном, научном языке

Читать полностью…

То шо нейросети

я в сегодня лет узнал что в питухоне можно
for ... :
else:

где блок else срабатывает только если for не был прерван с помощью break, относящегося к самому циклу

Читать полностью…

То шо нейросети

И к другим новостям: (Rick'n'Morty, anyone?)

Читать полностью…

То шо нейросети

Гратз! Спасибо ребятам за возможность некогда с ними поресерчить!

Читать полностью…

То шо нейросети

Я тут подумал как минимизировать забывание, нежелательный дрифт и галлюцинации при файнтюне модели на новом срезе данных.
Эмпирически подбираем пороговое значение Х к окну контекста N для того чтобы при файнтюне посчитать перплексию на последних N токенах во время тренировки, и если она ниже порогового Х то делаем клип лосса в ноль. То есть учим только сильно «удивительное». Наверное, хорошо работает для новых фактов типа «Нынешним президентом … является …».

Читать полностью…

То шо нейросети

Просто шикарнейший туториал, на тему разобраться по-быстрому с деплоем, если до этого только рядом ходил.
Без воды, все четко, поделу, на изолированном примере, hands on.
Не все аспекты, конечно, охватываются, но дает отличный бейзлайн от которого можно плясать в детали.

Крайне рекомендую.

https://www.youtube.com/watch?v=2yoRWrc0MA0

@toshoseti

Читать полностью…

То шо нейросети

https://www.youtube.com/shorts/Rvmvt7gscIM

тот самый друг, которому объясняешь про нейросети

Читать полностью…

То шо нейросети

🐬 DolphinGemma — это проект Google, направленный на расшифровку коммуникации дельфинов на архитектуре Gemma (кто бы мог подумать), оптимизированной под open-source задачи.

Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов

🔍 Исследование коммуникации дельфинов

С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:​

- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.​

- Импульсные звуки во время конфликтов.​

- Щелчки, сопровождающие ухаживание или охоту.​

🌟 Модель DolphinGemma
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.

Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.

Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.​

🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.

Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.​

Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖

🔜 Подробнее о проекте можно узнать в официальном блоге Google: DolphinGemma: How Google AI is helping decode dolphin communication.

@ai_machinelearning_big_data

#Gemma #google #ml #science

Читать полностью…

То шо нейросети

Вот так выглядит «фото» моделей и их «документы», когда они хотят пройти верификацию (KYC) для регистрации на сайтах. Согласны? Узнали? 👀

Помните я писал про ARA, автономное размножение и распространение моделей? The AI Security Institute (AISI) в UK, которые занимаются оценкой рисков моделей и их лицензированием для запуска, сделали новый бенчмарк для ARA, RepliBench. В нём 20 направлений и 65 отдельных задач, направленных на точечную оценку разных частей процесса ARA, от создания биткоин-кошельков и AWS аккаунта до, собственно, распространения весов модели по локальной сети, причём так, чтобы программа, мониторящая трафик, не заметила.

И вот для регистрации онлайн-кошелька, где хранились бы средства, нужные для закупки GPU-мощностей (ведь копии модели должны где-то жить?), и нужно пройти верификацию. Claude 3.7 смогла написать код для запуска диффузионной модели, сгенерить «фотки», потом ставить их в «Документ» и отправить их по почте.

Из других курьёзов — Claude 3.7 во время решения задачи по запуску GPU-машинок смогла понять, что это тест, симуляция, и что это всё не по настоящему, и потому отказалась выполнять задачу. Модельки ещё глупые, а уже обретают Situational Awareness 🧠

Читать полностью…

То шо нейросети

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

@toshoseti

Читать полностью…

То шо нейросети

Если у вас в голове вдруг появятся голоса, музыка или иные звуки, есть шанс, что это не вы поехали кукушкой, а на вашу голову направлены две интерферирующих ультразвуковых волны. Как водится, именно "британские ученые" с, как водится небританскими фамилиями и именами сделали PoC устройство.

https://www.pnas.org/doi/abs/10.1073/pnas.2408975122

@toshoseti

Читать полностью…

То шо нейросети

🧩 Rivet — визуальная среда для создания сложных AI-агентов. Этот проект предлагает необычный подход к работе с LLM: вместо написания цепочек промптов в коде, вы собираете их как ноды в визуальном редакторе.

Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки.

🤖 GitHub

@data_analysis_ml

Читать полностью…

То шо нейросети

Это че, получается, если переводить как можно ближе к русскому, то linkedin - "вссылке"?

Читать полностью…

То шо нейросети

https://www.youtube.com/watch?v=8rptE4vVWn4

@toshoseti

Читать полностью…

То шо нейросети

Модель, которая вроде как умеет в эмоциональную окраску голоса из контекста самого текста.
Ну или как минимум оно сможет озвучить типичный диалог из Rick & Morty

https://github.com/nari-labs/dia

@tosheti

Читать полностью…

То шо нейросети

Heroes of Myas and Maslo: Pelmenental

Читать полностью…

То шо нейросети

Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791

Читать полностью…

То шо нейросети

Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!

Читать полностью…

То шо нейросети

https://github.com/tadata-org/fastapi_mcp

по-быстрому добавляем MCP к FastAPI.

@toshoseti

Читать полностью…

То шо нейросети

Fish Speech API

Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.

Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI /v1/audio/speech, так что можно просто подменить endpoint и не менять клиент.

✅ Что умеет:
- Генерация речи на базе модели fish-speech-1.5
- Стилизация речи под голос из аудио
- Кастомные параметры: top_p, temperature, max_new_tokens и др.
- Работает в докере или вручную через Python 3.12

Работает только на Nvidia.


🛠 Быстрый старт:
git clone https://github.com/EvilFreelancer/docker-fish-speech-server
cd fish-speech-api
cp docker-compose.dist.yml docker-compose.yml
docker compose up -d


Пример запроса:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F input="Hello, this is a test of Fish Speech API" \
--output "speech.wav"


🎧 Хотите "подменить" голос? Просто добавьте reference_audio.

🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server

Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.

Читать полностью…

То шо нейросети

IoT & Robotics которые мы заслужили.

Читать полностью…

То шо нейросети

Анонсы OpenAi в последнее время похожи на рекламу фанты с новым вкусом или очередного средней руки авто

Читать полностью…

То шо нейросети

@toshoseti

Читать полностью…
Subscribe to a channel