На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
GoLU — новая функция активации для нейросетей
Представлена Gompertz Linear Unit (GoLU) — инновационная self-gated функция активации, принятая на NeurIPS 2025.
Главное отличие: использует асимметричную функцию Гомперца вместо симметричного гейтинга (как в GELU/Swish), что лучше улавливает динамику реальных данных.
Преимущества:
• Снижение дисперсии в латентном пространстве
• Гладкий ландшафт функции потерь
• Быстрая сходимость и выше точность
GoLU превзошла GELU, Swish и Mish в задачах CV, NLP и диффузионных моделей. Доступно оптимизированное CUDA-ядро для простой интеграции
📄 https://arxiv.org/pdf/2502.03654
💻 https://github.com/automl/GoLU
@toshoseti
Я тут узнал, что у автора моего любимого мема «Идущий к Реке» можно купить видео-рекламу, что я и сделал; видео-рекламу этого канала я вам показывать не буду, вы и так на него подписаны, но Серж (так зовут героя мема) еще сделал отдельное видео, аж на 6 минут, с благодарностями и пожеланиями мне – и я, как всегда, впечатлен его языковой моделью, буду переслушивать для повышения самооценки, спасибо
Я это видео перегнал в текст и сделал из его стиля «генератор благодарностей» в виде GPT, просто вводите свое имя и читаете про то какой вы замечательный, и «Пусть дорога твоя будет озарена внутренним пламенем, пусть рядом всегда будут те, кто поддерживает, кто видит, кто слышит. Пусть каждый твой день будет праздником узнавания самого себя» и так далее
Генерируем текст и нажимаем «прослушать» в ChatGPT, зачем – не спрашивайте, так не принято ☕️
👀 Про аудио кодеки в Deep Learning School
Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)
На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.
Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff
Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.
На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.
Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0
Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ
#audio #perfomances
Новая LFM2 MoE-модель: 8.3B параметров, из которых активно только 1.5B на токен.
Это первая LFM2 модель с Mixture of Experts архитектурой. Качество сопоставимо с dense-моделями 3–4B, но она работает быстрее, чем Qwen3-1.7B.
Модель оптимизирована для запуска на телефонах и ноутбуках — совместима с llama.cpp и vLLM. Обучена на 12T токенов, что обеспечивает сильные результаты в math, code и instruction-following.
Архитектура: 24 блока (10 gated short conv + 6 GQA), 32 эксперта, при этом на каждый токен активируется top-4.
На Galaxy S24 Ultra и AMD HX370 модель показывает более высокую скорость, чем Qwen3-1.7B. На 16 бенчмарках она превосходит LFM2-2.6B и модели аналогичного размера, особенно в math, code и creative writing.
Использована комбинированная техника preference optimization: length-normalized DPO + APO.
🤗 Model: https://huggingface.co/LiquidAI/LFM2-8B-A1B
🤗 GGUF: https://huggingface.co/LiquidAI/LFM2-8B-A1B-GGUF
📝 Blog post: https://www.liquid.ai/blog/lfm2-8b-a1b-an-efficient-on-device-mixture-of-experts
@toshoseti
ViT имеют тендецию находить области, чей сигнал избыточен (может быть выведен за счет окружающих) и передавать полезную информацию через аттеншен в этих местах. Этакая контрабанда внутри трансформеров.
Чтобы облегчить работу трансформерам и закопать уже стюардессу нормализовать attention masks, вводят дополнительные регистры для подобного хранения на усмотрение модели.
Статья
@toshoseti
https://www.arxiv.org/abs/2509.19162
Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .
Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.
А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c
Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons
https://whytorch.org/
Инструмент для наглядной демонстрации некоторых тривиальных и нетривиальных функций операций с тензорами в PyTorch.
@toshoseti
Есть наработки по AI системе озвучки (foley, no speech) для AI Generated NSFW videos или любых прочих NSFW видео без звука, с возможностью адаптации под домен. Если есть идеи как монетизировать или потенциальные клиенты, напишите, пожалуйста.
Читать полностью…Жидкие сети продолжаю переть вперед!
Теперь компактная модель для Speech related tasks (TTS, STT)
LFM2-Audio — это новая end-to-end audio-text модель, разработанная для обеспечения максимального качества в средах с низкой задержкой и ограниченными ресурсами.
Гибкая мультимодальная архитектура, поддерживающая все комбинации аудио- и текстовых модальностей ввода-вывода через единый backbone.
Широкий спектр приложений в одной модели, включая разговорный чат, транскрипцию, преобразование текста в речь и классификацию аудио.
Более чем в 10 раз более быстрый вывод, с качеством разговора, сопоставимым с 10-кратно более крупными конкурирующими моделями.
Video:
https://www.youtube.com/watch?v=1eGMxkffBC8&t=4s
Demo: https://playground.liquid.ai/talk
📝 Article: https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model
🤗 Model: https://huggingface.co/LiquidAI/LFM2-Audio-1.5B
@toshoseti
В этот день, 28 лет назад, хорватский программист изменил то, как весь мир слушает музыку.
В 1997 году Томислав Узелац, тогда 23-летний студент факультета информатики из Хорватии, разработал первую настоящую работающую программу для воспроизведения аудиофайлов в формате MP3 — AMP.
Это стало переломным моментом в истории технологий. Его работа сделала возможным воспроизведение сжатых аудиофайлов на персональных компьютерах, положив начало цифровой музыкальной революции.
После того как Томислав выложил свою программу в интернет, американские студенты Джастин Франкел и Дмитрий Болдырев взяли её за основу и адаптировали для интерфейса Windows. Так появился Winamp — ставший самым популярным MP3-плеером в мире на десятилетия. Джастин и Дмитрий назвали его, объединив первые буквы слов Windows и AMP.
@toshoseti
Алекс Гордич продолжает разбирать основы современного ллм инференса - в этот раз про matmul на картах nvidia и его особенности
aleksagordic.com/blog/matmul
Я не знаю, может меня легко впечатлить или я впечатлительный человек в целом – хотя вроде нет, я нормально отношусь когда мимо меня проезжает чел на моноколесе с подсветкой на скорости 40 км/ч и я даже пальцем в него не тыкаю, но я не про это – вам не кажется, что роботы не должны так петь?
Это будто какие-то законы божьи мы нарушаем прямо сейчас и каждую версию рекламируем, мол, вон смотрите, прокуренный-кабачный голос всего за 5 секунд сгенерировал вам песню, никакого опиума не участвовало и в подписке в месяц можно сгенерировать 500 кабачных песен без всякого опиума, просто принеси свой стих или сделаем с нуля вместе
А как же разбитые музыкальные судьбы которые конвертировались в великие хиты? Как в таком мире появится новый Вертинский? Откуда взяться Юлии Запольской если таких песен генерируется 500 за $10 в месяц?
Я одновременно и напуган и впечатлен, и негодую от пятой версии Suno
P.S. Это стихи Бодлера, Цветы зла – Отрава, за то что он хейтил технологии мне иронично мучить его творчество
Давненько я делал введение , разбор и тетрадки по теме жидких нейросетей. Я остановился на closed form continuous time upper-lower bound solution , которое предоставили авторы, где вместо солвера получилось использовать формулу, не повторяющую точное значение, но повторяющую динамику целевой функции достаточно близко.
В этом году вышла статья, где пошли еще дальше и представили точное closed form решение, заменяющее необходимость в ODE solver:
https://www.techrxiv.org/users/834518/articles/1227159/master/file/data/ExactLTC/ExactLTC.pdf
Постараюсь в ближайшее время разобрать, может даже запилю кое что интересное с использованием этого подхода.
@toshoseti
http://arxiv.org/abs/2510.12403
Hf книжка по роботам sim-real rl, vla, diffusion policies
Samsung Tiny Recursive Model (TRM) от Alexia Jolicoeur-Martineau — модель примерно в 10 000 раз меньше, чем типичные LLM, но при этом умнее.
Вместо простого предсказания текста TRM рассуждает рекурсивно: формирует ответ, создает скрытый scratchpad для логики, критикует себя, улучшает рассуждения до 16 раз и выдает сильный финальный результат.
На ARC-AGI 1/2 она превзошла DeepSeek и Gemini 2.5 Pro, показывая, что интеллект определяется архитектурой и циклами рассуждения, а не размером.
TRM делает ИИ эффективнее, дешевле и умнее, подтверждая идеи neuro-symbolic AI.
🔗 Blog
💻 Code
📄 Paper
@toshoseti
Qwen3-Next 80B-A3B
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
[Гитхаб репа]
Коллеги из страны, подарившей ранее миру шедевры Моцарта и Штрауса, а еще и GPTQ, выкатили на неделе либу llm
.q
для quantization-aware training LLMок, написанную на чистом C/C++.
Данный проект по существу является адаптацией llm.c
от Карпатого под обучение квантизованных моделей.
Чекпоинты с обучения сохраняются в .safetensors
формат, т.е совместимый с 🤗 экосистемой.
В либе реализован небходимый базовый функционал для обучения LLM:
📌 Zero (1-3)
📌 Градиентный чекпоинтинг
📌 Оффлоадинг
📌 Разные опции для mixed-precision
На текущий момент, поддерживается обучение в half precision, INT8, FP8. Было бы прикольно в будущем увидеть реализацию обучения для FP4 форматов, поддерживаемых Blackwell, со всеми прибамбасами для стабилизации обучения.
Сравнения по скорости обучения с популярными фреймворками (accelerate / deepspeed) я не увидел. Представлены только абсолютные числа по времени обучения для модели заданной архитектуры. Удается достичь примерно 40-60% SOL (speed-of-light, максимально возможной производительности на заданном железе). На маленьких моделях fp8 почти не дает ускорения обучения, но с ростом размера нейронки - профит становится заметнее.
Интересно, как дальше будет развиваться проект.
От /channel/nadlskom узнал про наших слоняр, поддержим!
Читать полностью…Ring, Ulysses и Unified Attention теперь поддерживаются в HF Diffusers!
Иными словами завезли context parallelism , ускоряющий работу на нескольких GPU.
https://github.com/huggingface/diffusers/pull/11941
@toshoseti
🐈FLM-Audio: новая англо-китайская full-duplex модель, чем она лучше Moshi ?
Тык, сегодня снова про аудио тех 🔔
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.
‼Немного про full-duplex
Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.
Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue. 😮 Для каждого аудиофрейма (12.5 Hz) модель генерит свои аудио и текстовые токены монолога (когда молчит, то все равно генерит пустые токены), затем эти потоки объединяются и подаются обратно на вход LLM.
Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.
😭 Проблема Moshi: 65% padding'а
Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается: Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>
Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель 🐈 — может выдавать странные фразы, неуместно перебивать. Плюс нужны точные временные метки на уровне слов для всего корпуса. Это сложно масштабируется.
💭FLM-Audio: natural monologues
В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?
Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется <wait>
токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.
Что и как тренировали?
Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).
Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.
🗯Интересно: авторы подмешивают речь модели в listening канал с вероятностью 0.3, чтобы она научилась игнорировать собственный голос.
Результаты лучше Moshi, но есть вопросики
⏺ASR (LibriSpeech-clean): 3.2% WER против 5.7% у Moshi — на 44% лучше. В spoken QA авторы заявляют 56.3% vs 43.7 у Moshi (хотя в своей статье Moshi показывала 62.3%).
⏺Human eval: FLM выше Qwen-2.5-Omni по naturalness (8.2 vs 7.9), responsiveness (8.8 vs 8.1), robustness (8.0 vs 7.7).
Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.
Ну и выводы такие..
Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.
🥹 Как считаете, стоит ли full-duplex такой архитектурной сложности? И как вам Moshi, если удалось потестить?
Полиция Сан-Бруно в США остановила машину, чтобы выписать штраф за неправильный разворот, однако за рулем транспортного средства никого не было — сотрудник остановил беспилотное такси Waymo. Информация о случившемся появилась в соцсетях ведомства.
Инцидент произошел в рамках операции по борьбе с водителями, которые садятся за руль в нетрезвом виде. Полицейские не смогли выписать штраф за маневр, ведь в бланках нет графы «робот» для обозначения нарушителя.
Сотрудники полиции уведомили сервис беспилотных такси Waymo. Представители компании пообещали изучить ситуацию и заверили, что этот опыт будет использован для повышения безопасности дорожного движения, передает The Guardian.
Фото: San Bruno Police Department
🐚 Читать РБК в Telegram
⚡️ Sakana AI представили: ShinkaEvolve — новый open-source фреймворк для научных открытий, который использует LLM и работает на порядки эффективнее традиционных эволюционных систем.
Обычные эволюционные алгоритмы похожи на brute-force: им нужны тысячи выборок, чтобы найти хорошее решение.
ShinkaEvolve, вдохновлённый принципами природы (*shinka* — «эволюция» по-японски), решает задачи всего за сотни попыток.
Пример: в классической задаче упаковки кругов (разместить несколько кругов так, чтобы они не перекрывались и при этом занимали как можно меньше места или максимально эффективно заполняли заданную область) ShinkaEvolve нашёл новое SOTA-решение, использовав 150 выборок, тогда как прошлым методам требовались тысячи.
📌 Применения ShinkaEvolve:
1️⃣ AIME Math Reasoning - система создала новые агентные шаблоны (scaffolds), которые оказались сильнее существующих методов.
2️⃣ Соревновательное программирование (ALE-Bench) - улучшила готовые решения и подняла результат с 5-го до 2-го места в рейтинге.
3️⃣ Обучение LLM - открыла новую функцию потерь для MoE-моделей, что помогло экспертам лучше специализироваться и снизило perplexity моделей.
⚙️ Основные инновации, которые дают такой прирост эффективности:
- умный отбор родителей, балансирующий исследование новых идей и улучшение старых;
- фильтрация по новизне, чтобы не тратить ресурсы на повторные варианты;
- ансамбль из нескольких LLM, где bandit-алгоритм в реальном времени выбирает наиболее подходящую модель для задачи.
ShinkaEvolve открыт для сообщества и задуман как универсальный помощник для учёных и инженеров. Цель команды — сделать поиск новых решений быстрее и доступнее.
🔗 Блог: https://sakana.ai/shinka-evolve/
🔗 Код: https://github.com/SakanaAI/ShinkaEvolve
📄 Репорт: https://arxiv.org/abs/2509.19349
@ai_machinelearning_big_data
#AI #LLM #EvolutionaryAI #ShinkaEvolve #OpenSource
Catfishing вышел на новый уровень
https://www.linkedin.com/posts/smithymayo_heychris-ugcPost-7376761238887784448-b2AV?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo
Каким то волшебным макаром ушел оригинальный автор поста , сейчас перешлю заново
Читать полностью…Мы живем в сумасшедшее время. Чудесное и страшное.
Читать полностью…