toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

GoLU — новая функция активации для нейросетей
Представлена Gompertz Linear Unit (GoLU) — инновационная self-gated функция активации, принятая на NeurIPS 2025.
Главное отличие: использует асимметричную функцию Гомперца вместо симметричного гейтинга (как в GELU/Swish), что лучше улавливает динамику реальных данных.
Преимущества:
• Снижение дисперсии в латентном пространстве
• Гладкий ландшафт функции потерь
• Быстрая сходимость и выше точность
GoLU превзошла GELU, Swish и Mish в задачах CV, NLP и диффузионных моделей. Доступно оптимизированное CUDA-ядро для простой интеграции

📄 https://arxiv.org/pdf/2502.03654
💻 https://github.com/automl/GoLU

@toshoseti

Читать полностью…

То шо нейросети

Я тут узнал, что у автора моего любимого мема «Идущий к Реке» можно купить видео-рекламу, что я и сделал; видео-рекламу этого канала я вам показывать не буду, вы и так на него подписаны, но Серж (так зовут героя мема) еще сделал отдельное видео, аж на 6 минут, с благодарностями и пожеланиями мне – и я, как всегда, впечатлен его языковой моделью, буду переслушивать для повышения самооценки, спасибо

Я это видео перегнал в текст и сделал из его стиля «генератор благодарностей» в виде GPT, просто вводите свое имя и читаете про то какой вы замечательный, и «Пусть дорога твоя будет озарена внутренним пламенем, пусть рядом всегда будут те, кто поддерживает, кто видит, кто слышит. Пусть каждый твой день будет праздником узнавания самого себя» и так далее

Генерируем текст и нажимаем «прослушать» в ChatGPT, зачем – не спрашивайте, так не принято ☕️

Читать полностью…

То шо нейросети

👀 Про аудио кодеки в Deep Learning School

Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)

На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.

Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff

Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.

На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.

Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0

Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ

#audio #perfomances

Читать полностью…

То шо нейросети

Новая LFM2 MoE-модель: 8.3B параметров, из которых активно только 1.5B на токен.

Это первая LFM2 модель с Mixture of Experts архитектурой. Качество сопоставимо с dense-моделями 3–4B, но она работает быстрее, чем Qwen3-1.7B.

Модель оптимизирована для запуска на телефонах и ноутбуках — совместима с llama.cpp и vLLM. Обучена на 12T токенов, что обеспечивает сильные результаты в math, code и instruction-following.

Архитектура: 24 блока (10 gated short conv + 6 GQA), 32 эксперта, при этом на каждый токен активируется top-4.

На Galaxy S24 Ultra и AMD HX370 модель показывает более высокую скорость, чем Qwen3-1.7B. На 16 бенчмарках она превосходит LFM2-2.6B и модели аналогичного размера, особенно в math, code и creative writing.

Использована комбинированная техника preference optimization: length-normalized DPO + APO.

🤗 Model: https://huggingface.co/LiquidAI/LFM2-8B-A1B
🤗 GGUF: https://huggingface.co/LiquidAI/LFM2-8B-A1B-GGUF
📝 Blog post: https://www.liquid.ai/blog/lfm2-8b-a1b-an-efficient-on-device-mixture-of-experts

@toshoseti

Читать полностью…

То шо нейросети

ViT имеют тендецию находить области, чей сигнал избыточен (может быть выведен за счет окружающих) и передавать полезную информацию через аттеншен в этих местах. Этакая контрабанда внутри трансформеров.
Чтобы облегчить работу трансформерам и закопать уже стюардессу нормализовать attention masks, вводят дополнительные регистры для подобного хранения на усмотрение модели.

Статья

@toshoseti

Читать полностью…

То шо нейросети

https://www.arxiv.org/abs/2509.19162

Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .

Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.

А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c

Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons

Читать полностью…

То шо нейросети

https://whytorch.org/

Инструмент для наглядной демонстрации некоторых тривиальных и нетривиальных функций операций с тензорами в PyTorch.

@toshoseti

Читать полностью…

То шо нейросети

Есть наработки по AI системе озвучки (foley, no speech) для AI Generated NSFW videos или любых прочих NSFW видео без звука, с возможностью адаптации под домен. Если есть идеи как монетизировать или потенциальные клиенты, напишите, пожалуйста.

Читать полностью…

То шо нейросети

Жидкие сети продолжаю переть вперед!

Теперь компактная модель для Speech related tasks (TTS, STT)

LFM2-Audio — это новая end-to-end audio-text модель, разработанная для обеспечения максимального качества в средах с низкой задержкой и ограниченными ресурсами.
Гибкая мультимодальная архитектура, поддерживающая все комбинации аудио- и текстовых модальностей ввода-вывода через единый backbone.
Широкий спектр приложений в одной модели, включая разговорный чат, транскрипцию, преобразование текста в речь и классификацию аудио.
Более чем в 10 раз более быстрый вывод, с качеством разговора, сопоставимым с 10-кратно более крупными конкурирующими моделями.

Video:
https://www.youtube.com/watch?v=1eGMxkffBC8&t=4s

Demo: https://playground.liquid.ai/talk

📝 Article: https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model

🤗 Model: https://huggingface.co/LiquidAI/LFM2-Audio-1.5B

@toshoseti

Читать полностью…

То шо нейросети

В этот день, 28 лет назад, хорватский программист изменил то, как весь мир слушает музыку.

В 1997 году Томислав Узелац, тогда 23-летний студент факультета информатики из Хорватии, разработал первую настоящую работающую программу для воспроизведения аудиофайлов в формате MP3 — AMP.

Это стало переломным моментом в истории технологий. Его работа сделала возможным воспроизведение сжатых аудиофайлов на персональных компьютерах, положив начало цифровой музыкальной революции.

После того как Томислав выложил свою программу в интернет, американские студенты Джастин Франкел и Дмитрий Болдырев взяли её за основу и адаптировали для интерфейса Windows. Так появился Winamp — ставший самым популярным MP3-плеером в мире на десятилетия. Джастин и Дмитрий назвали его, объединив первые буквы слов Windows и AMP.

@toshoseti

Читать полностью…

То шо нейросети

Алекс Гордич продолжает разбирать основы современного ллм инференса - в этот раз про matmul на картах nvidia и его особенности

aleksagordic.com/blog/matmul

Читать полностью…

То шо нейросети

Шайтан! В смысле демон!

Читать полностью…

То шо нейросети

by /channel/denissexy/10791

Читать полностью…

То шо нейросети

Я не знаю, может меня легко впечатлить или я впечатлительный человек в целом – хотя вроде нет, я нормально отношусь когда мимо меня проезжает чел на моноколесе с подсветкой на скорости 40 км/ч и я даже пальцем в него не тыкаю, но я не про это – вам не кажется, что роботы не должны так петь? 

Это будто какие-то законы божьи мы нарушаем прямо сейчас и каждую версию рекламируем, мол, вон смотрите, прокуренный-кабачный голос всего за 5 секунд сгенерировал вам песню, никакого опиума не участвовало и в подписке в месяц можно сгенерировать 500 кабачных песен без всякого опиума, просто принеси свой стих или сделаем с нуля вместе

А как же разбитые музыкальные судьбы которые конвертировались в великие хиты? Как в таком мире появится новый Вертинский? Откуда взяться Юлии Запольской если таких песен генерируется 500 за $10 в месяц? 

Я одновременно и напуган и впечатлен, и негодую  от пятой версии Suno

P.S. Это стихи Бодлера, Цветы зла – Отрава, за то что он хейтил технологии мне иронично мучить его творчество

Читать полностью…

То шо нейросети

Давненько я делал введение , разбор и тетрадки по теме жидких нейросетей. Я остановился на closed form continuous time upper-lower bound solution , которое предоставили авторы, где вместо солвера получилось использовать формулу, не повторяющую точное значение, но повторяющую динамику целевой функции достаточно близко.
В этом году вышла статья, где пошли еще дальше и представили точное closed form решение, заменяющее необходимость в ODE solver:

https://www.techrxiv.org/users/834518/articles/1227159/master/file/data/ExactLTC/ExactLTC.pdf

Постараюсь в ближайшее время разобрать, может даже запилю кое что интересное с использованием этого подхода.

@toshoseti

Читать полностью…

То шо нейросети

http://arxiv.org/abs/2510.12403

Hf книжка по роботам sim-real rl, vla, diffusion policies

Читать полностью…

То шо нейросети

Спасибо за наводку /channel/den4ikresearch

Читать полностью…

То шо нейросети

Samsung Tiny Recursive Model (TRM) от Alexia Jolicoeur-Martineau — модель примерно в 10 000 раз меньше, чем типичные LLM, но при этом умнее.

Вместо простого предсказания текста TRM рассуждает рекурсивно: формирует ответ, создает скрытый scratchpad для логики, критикует себя, улучшает рассуждения до 16 раз и выдает сильный финальный результат.

На ARC-AGI 1/2 она превзошла DeepSeek и Gemini 2.5 Pro, показывая, что интеллект определяется архитектурой и циклами рассуждения, а не размером.

TRM делает ИИ эффективнее, дешевле и умнее, подтверждая идеи neuro-symbolic AI.

🔗 Blog
💻 Code
📄 Paper

@toshoseti

Читать полностью…

То шо нейросети

Qwen3-Next 80B-A3B

C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом

- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)


blog

Читать полностью…

То шо нейросети

[Гитхаб репа]

Коллеги из страны, подарившей ранее миру шедевры Моцарта и Штрауса, а еще и GPTQ, выкатили на неделе либу llm.q для quantization-aware training LLMок, написанную на чистом C/C++.

Данный проект по существу является адаптацией llm.c от Карпатого под обучение квантизованных моделей.

Чекпоинты с обучения сохраняются в .safetensors формат, т.е совместимый с 🤗 экосистемой.

В либе реализован небходимый базовый функционал для обучения LLM:
📌 Zero (1-3)
📌 Градиентный чекпоинтинг
📌 Оффлоадинг
📌 Разные опции для mixed-precision

На текущий момент, поддерживается обучение в half precision, INT8, FP8. Было бы прикольно в будущем увидеть реализацию обучения для FP4 форматов, поддерживаемых Blackwell, со всеми прибамбасами для стабилизации обучения.

Сравнения по скорости обучения с популярными фреймворками (accelerate / deepspeed) я не увидел. Представлены только абсолютные числа по времени обучения для модели заданной архитектуры. Удается достичь примерно 40-60% SOL (speed-of-light, максимально возможной производительности на заданном железе). На маленьких моделях fp8 почти не дает ускорения обучения, но с ростом размера нейронки - профит становится заметнее.

Интересно, как дальше будет развиваться проект.

Читать полностью…

То шо нейросети

От /channel/nadlskom узнал про наших слоняр, поддержим!

Читать полностью…

То шо нейросети

Ring, Ulysses и Unified Attention теперь поддерживаются в HF Diffusers!
Иными словами завезли context parallelism , ускоряющий работу на нескольких GPU.

https://github.com/huggingface/diffusers/pull/11941

@toshoseti

Читать полностью…

То шо нейросети

🐈FLM-Audio: новая англо-китайская full-duplex модель, чем она лучше Moshi ?

Тык, сегодня снова про аудио тех 🔔
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.

Немного про full-duplex

Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.

Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue. 😮 Для каждого аудиофрейма (12.5 Hz) модель генерит свои аудио и текстовые токены монолога (когда молчит, то все равно генерит пустые токены), затем эти потоки объединяются и подаются обратно на вход LLM.

Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.

😭 Проблема Moshi: 65% padding'а

Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается: Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>

Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель 🐈 — может выдавать странные фразы, неуместно перебивать. Плюс нужны точные временные метки на уровне слов для всего корпуса. Это сложно масштабируется.

💭FLM-Audio: natural monologues

В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?

Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется <wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.

Что и как тренировали?

Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).

Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.

🗯Интересно: авторы подмешивают речь модели в listening канал с вероятностью 0.3, чтобы она научилась игнорировать собственный голос.

Результаты лучше Moshi, но есть вопросики

ASR (LibriSpeech-clean): 3.2% WER против 5.7% у Moshi — на 44% лучше. В spoken QA авторы заявляют 56.3% vs 43.7 у Moshi (хотя в своей статье Moshi показывала 62.3%).

Human eval: FLM выше Qwen-2.5-Omni по naturalness (8.2 vs 7.9), responsiveness (8.8 vs 8.1), robustness (8.0 vs 7.7).

Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.

Ну и выводы такие..

Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.

🥹 Как считаете, стоит ли full-duplex такой архитектурной сложности? И как вам Moshi, если удалось потестить?

Читать полностью…

То шо нейросети

Полиция Сан-Бруно в США остановила машину, чтобы выписать штраф за неправильный разворот, однако за рулем транспортного средства никого не было — сотрудник остановил беспилотное такси Waymo. Информация о случившемся появилась в соцсетях ведомства.

Инцидент произошел в рамках операции по борьбе с водителями, которые садятся за руль в нетрезвом виде. Полицейские не смогли выписать штраф за маневр, ведь в бланках нет графы «робот» для обозначения нарушителя.

Сотрудники полиции уведомили сервис беспилотных такси Waymo. Представители компании пообещали изучить ситуацию и заверили, что этот опыт будет использован для повышения безопасности дорожного движения, передает The Guardian.

Фото: San Bruno Police Department

🐚 Читать РБК в Telegram

Читать полностью…

То шо нейросети

⚡️ Sakana AI представили: ShinkaEvolve — новый open-source фреймворк для научных открытий, который использует LLM и работает на порядки эффективнее традиционных эволюционных систем.

Обычные эволюционные алгоритмы похожи на brute-force: им нужны тысячи выборок, чтобы найти хорошее решение.

ShinkaEvolve, вдохновлённый принципами природы (*shinka* — «эволюция» по-японски), решает задачи всего за сотни попыток.

Пример: в классической задаче упаковки кругов (разместить несколько кругов так, чтобы они не перекрывались и при этом занимали как можно меньше места или максимально эффективно заполняли заданную область) ShinkaEvolve нашёл новое SOTA-решение, использовав 150 выборок, тогда как прошлым методам требовались тысячи.

📌 Применения ShinkaEvolve:

1️⃣ AIME Math Reasoning - система создала новые агентные шаблоны (scaffolds), которые оказались сильнее существующих методов.
2️⃣ Соревновательное программирование (ALE-Bench) - улучшила готовые решения и подняла результат с 5-го до 2-го места в рейтинге.
3️⃣ Обучение LLM - открыла новую функцию потерь для MoE-моделей, что помогло экспертам лучше специализироваться и снизило perplexity моделей.

⚙️ Основные инновации, которые дают такой прирост эффективности:
- умный отбор родителей, балансирующий исследование новых идей и улучшение старых;
- фильтрация по новизне, чтобы не тратить ресурсы на повторные варианты;
- ансамбль из нескольких LLM, где bandit-алгоритм в реальном времени выбирает наиболее подходящую модель для задачи.

ShinkaEvolve открыт для сообщества и задуман как универсальный помощник для учёных и инженеров. Цель команды — сделать поиск новых решений быстрее и доступнее.

🔗 Блог: https://sakana.ai/shinka-evolve/
🔗 Код: https://github.com/SakanaAI/ShinkaEvolve
📄 Репорт: https://arxiv.org/abs/2509.19349

@ai_machinelearning_big_data

#AI #LLM #EvolutionaryAI #ShinkaEvolve #OpenSource

Читать полностью…

То шо нейросети

Catfishing вышел на новый уровень

https://www.linkedin.com/posts/smithymayo_heychris-ugcPost-7376761238887784448-b2AV?utm_source=share&amp;utm_medium=member_desktop&amp;rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo

Читать полностью…

То шо нейросети

https://www.linkedin.com/posts/steevemorin_paving-the-way-for-unlimited-context-windows-activity-7376981932150112256-gzBO?utm_medium=ios_app&amp;rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo&amp;utm_source=social_share_send&amp;utm_campaign=share_via

Читать полностью…

То шо нейросети

Каким то волшебным макаром ушел оригинальный автор поста , сейчас перешлю заново

Читать полностью…

То шо нейросети

Мы живем в сумасшедшее время. Чудесное и страшное.

Читать полностью…

То шо нейросети

https://lnkd.in/p/g7T_VFWU

Читать полностью…
Subscribe to a channel