gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Чтение на неделю:

https://www.robonaissance.com/t/language-is-poison

Читать полностью…

gonzo-обзоры ML статей

Long live RNN!

M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling
Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao
Статья: https://arxiv.org/abs/2603.14360
Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix
Код: https://github.com/open-lm-engine/lm-engine
Модель: https://huggingface.co/collections/open-lm-engine/m2rnn

# TL;DR

ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью.

ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей.

Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности.

Изучать матричное состояние тут: /channel/gonzo_ML_podcasts/2861

Читать полностью…

gonzo-обзоры ML статей

Вчера не нашёл подходящей картинки, а сегодня нашёл.

R.I.P.

Читать полностью…

gonzo-обзоры ML статей

Кто хочет написать новую ОС?

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem
Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian Pei
Статья: https://arxiv.org/abs/2603.08938
Ревью: https://arxiviq.substack.com/p/agentos-from-application-silos-to

# TL;DR

ЧТО сделали: Авторы предлагают концептуальный и архитектурный редизайн операционной системы — AgentOS. Она заменяет традиционные графические интерфейсы (GUI) и изолированные приложения на естественно-языковой интерфейс Single Port и ядро Agent Kernel, которое динамически переводит намерения пользователя в компонуемые модули-навыки (Skills-as-Modules).

ПОЧЕМУ это важно: Развёртывание вероятностных автономных агентов на базе LLM поверх старых детерминированных ОС создаёт хрупкие циклы взаимодействия и серьёзные уязвимости в безопасности. Переосмысляя ОС как непрерывный пайплайн Data Mining и извлечения знаний (KDD), AgentOS предлагает структурно нативный способ оркестрации мультиагентных воркфлоу, поддержания постоянной контекстной памяти и обеспечения семантических границ безопасности.

Для практиков: Заставлять автономных агентов работать в системах, созданных для визуального восприятия человеком, — фундаментальная ошибка, приводящая к узкому месту Screen-as-Interface (экран как интерфейс). AgentOS решает эту проблему, пряча традиционный рабочий стол под интеллектуальный слой маршрутизации намерений. Этот сдвиг требует перехода от классической системной инженерии к реалтайм-майнингу данных, где ОС должна постоянно строить персонализированные графы знаний, рекомендовать исполняемую логику и оптимизировать последовательности действий для безопасной реализации неоднозначных намерений.

Интент выражать здесь: /channel/gonzo_ML_podcasts/2837

Читать полностью…

gonzo-обзоры ML статей

Это мне кажется гениальная работа. Задним умом механизм настолько простой и логичный, что непонятно, почему его не сделали раньше. Это как переход от обычных encoder-decoder к encoder-decoder с вниманием в RNN. Супер логично ведь, что можно не тупо суммировать все резидуалы, а смотреть на них тем же механизмом внимания, что и по длине последовательности.

Заодно устраняет проблему с накоплением больших активаций в residual канале, недавние работы (см. /channel/gonzo_ML/4949) эту проблему решали с другой стороны.

Attention Residuals

Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan, Yaoyu Wang, Yucheng Wang, Guanduo Chen, Bohong Yin, Yutian Chen, Junjie Yan, Ming Wei, Y. Zhang, Fanqing Meng, Chao Hong, Xiaotong Xie, Shaowei Liu, Enzhe Lu, Yunpeng Tai, Yanru Chen, Xin Men, Haiqing Guo, Y. Charles, Haoyu Lu, Lin Sui, Jinguo Zhu, Zaida Zhou, Weiran He, Weixiao Huang, Xinran Xu, Yuzhi Wang, Guokun Lai, Yulun Du, Yuxin Wu, Zhilin Yang, Xinyu Zhou
Статья: https://arxiv.org/abs/2603.15031
Репа: https://github.com/MoonshotAI/Attention-Residuals
Ревью: https://arxiviq.substack.com/p/attention-residuals

# TL;DR

ЧТО сделали: Авторы из от Kimi Team заменяют привычное аддитивное residual-соединение на механизм Attention Residuals — выучиваемое поканальное (depth-wise) внимание с софтмаксом для агрегации репрезентаций из всех предыдущих слоёв. Чтобы масштабировать это для больших моделей, они предлагают поблочный вариант с кастомным кешированием для пайплайн-параллелизма и двухфазной оптимизацией инференса.

ПОЧЕМУ это важно: Стандартные residual-слои равномерно накапливают выходы, что приводит к неограниченному росту скрытых состояний и размытию информации из ранних слоёв. Переход к content-aware механизму маршрутизации (retrieval) по глубине сети позволяет жёстко ограничить магнитуды репрезентаций, выровнять поток градиентов и значительно повысить качество на задачах на рассуждение при том же объёме вычислений (выигрыш в вычислительной эффективности — 1.25x).

Обратить внимание на residuals тут: /channel/gonzo_ML_podcasts/2806

Читать полностью…

gonzo-обзоры ML статей

Новый GTC удивителен не железными анонсами про Vera Rubin и Groq, а NemoClaw

Слушать можно сразу саммари:
https://www.youtube.com/live/jw_o0xr8MWU?si=ToUSVz8EWowszWj0&t=10255

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про модель мира/нейро-дебаггер питона. Модели не обязательно запускать реальный интерпретатор, она может сделать нужные выводы "в голове".

Towards a Neural Debugger for Python
Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve
Статья: https://arxiv.org/abs/2603.09951
Ревью: https://arxiviq.substack.com/p/towards-a-neural-debugger-for-python

# TL;DR

ЧТО сделали: Авторы формулируют интерактивный дебаг как марковский процесс принятия решений. Они обучают языковые модели предсказывать промежуточные состояния программы в зависимости от стандартных действий дебаггера (например, step_into, breakpoint). Для этого собрали пайплайн данных, который превращает плоские трейсы выполнения питоновского кода в иерархические деревья. Это позволяет модели выполнять как прямой прогон кода, так и инверсный вывод состояния.

ПОЧЕМУ это важно: Текущие модели, умеющие работать с выполнением кода, потребляют линейные неинтерактивные трейсы, что совершенно не отражает то, как разработчики на самом деле ищут баги. Дав модели интерактивный контроль над симулируемым выполнением, эта работа закладывает фундамент "модели мира" (world model) для агентных систем написания кода. Теперь агенты могут шагать по коду, реверс-инжинирить инпуты и итеративно исправлять ошибки — и всё это без необходимости дёргать реальный рантайм.

Дебажить тут: /channel/gonzo_ML_podcasts/2780

Читать полностью…

gonzo-обзоры ML статей

4️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии находят максимум 2 из 4 типов рёбер. LLM-агенты коллективно находят все 4, включая DATA_FLOWS_TO, для которых нужен multi-hop reasoning через оркестрационный код. Правда, две лучших LLM обгоняют бейзлайны всего на 9-10 F1 поинтов, а слабые LLM проигрывают простым эвристикам.

5️⃣ Архитектурные ограничения агенты могут находить — но только если точно сказать, как. С первоначальным промптом все модели набрали 0. После добавления определений по типам и примеров — топовые модели прыгнули до 0.78 (Claude) и 0.74 (GPT). Бейзлайны — стабильный ноль. Самый поучительный результат: то, что выглядело как разрыв в capability моделей, оказалось разрывом в спецификации промпта.

Это бенчмарк v0.1 — один паттерн (Pipeline), один язык (Python), три кодовые базы, по одному прогону на модель. Очень предварительные результаты, не воспринимайте это как ранжирование моделей. Но фреймворк работает и сигнал реальный.

Планы на развитие: больше архитектурных паттернов (event-driven, microservices), больше языков, REVISE фаза (обновление beliefs после изменений в коде), реальные кодовые базы в дополнение к сгенерированным. Использование документации для выявления зависимостей и ограничений, а также разрешение противоречий между реальным кодом и доками. В конечном счёте и прогон через много разных моделей и систем.

Если кому-то интересно поколлаборировать -- вэлкам. PRs приветствуются. Если у вас есть какая-то интересная своя реальная кодовая база с разными зависимостями и ограничениями, и которую можно было бы использовать в бенчмарке, тоже очень интересно.

Критика тоже приветствуется!

Читать полностью…

gonzo-обзоры ML статей

Theory of Code Space: Do Code Agents Understand Software Architecture?

Зацепила тут одна тема, не удержался и дошёл до статьи. Она ещё сильно work in progress.

Статья: https://arxiv.org/abs/2603.00601
Код: https://github.com/che-shr-cat/tocs
Большой пост: https://gonzoml.substack.com/p/do-code-agents-actually-understand

Понимают ли код-агенты код, с которым работают?

Не в смысле "могут ли написать функцию" — это уже давно решённая задача. Я про другое: когда агент ковыряется в кодовой базе из 30 модулей, строит ли он в “голове” какую-то модель архитектуры? Понимает ли, какие модули от каких зависят, как текут данные, какие есть архитектурные ограничения? Или просто локально матчит паттерны и надеется на лучшее?

Идея в том, что всё целиком запихивать в контекст неспортивно. Во-первых, не каждая реальная кодовая база влезет, во-вторых, даже если влезет технически, то не факт, что от этого будет много пользы. Агент, как и человек, должен исследовать структуру кода, чтобы понять, что происходит. И в процессе должен (в идеале) как-то строить и обновлять свою “ментальную карту”.

Все существующие бенчмарки кода меряют выход — скомпилировался ли патч, прошёл ли тест. Никто не меряет, что агент понимает о системе в процессе работы с ней. Ну либо я не нашёл.

Всё началось с того, что я прочитал Theory of Space (https://arxiv.org/abs/2602.07055, авто-обзор тут /channel/gonzo_ML/4807) — классную работу про то, как мультимодальные модели строят "когнитивные карты" при исследовании частично наблюдаемых сред. Там два ключевых феномена: Active-Passive Gap (модели хуже работают, когда сами исследуют среду, vs когда им дают всё сразу) и Belief Inertia (не могут обновить свои представления, когда среда меняется).

Читая эту работу, у меня всё время в голове вертелось чувство, что с кодом всё то же самое. Разработчик, читая кодовую базу, строит ментальную модель архитектуры. Судя по косякам работы с код-агентами, они этого, похоже, не очень делают, и никто это не измеряет. Хотя, конечно, и Claude Code, и свежий Курсор для меня вполне левел-ап по сравнению с предыдущими подходами к снаряду.

Собственно, я взял и сделал бенчмарк. Theory of Code Space (ToCS) — берём агента, сажаем в процедурно сгенерированную кодовую базу (ground truth известен), даём бюджет в 20 действий (открыть файл, поискать, инспектировать символ), и каждые 3 действия просим выдать своё текущее понимание архитектуры в виде структурированного JSON. Получается не финальный снапшот, а временной ряд — как понимание развивается по мере исследования.

Что за кодовые базы? Генератор делает Pipeline-архитектуру средней сложности — 27-30 Python-файлов, 5 подпакетов, 70-84 ребра зависимостей и 15-16 архитектурных инвариантов. Есть этапы пайплайна, наследующие общий абстрактный базовый класс (ABC, StageBase), адаптеры поверх них, middleware (логирование, retry), утилиты, и — что важно — distractor-модули (legacy/, compat.py), которые ни к чему не подключены, но выглядят правдоподобно. Нейминг нейтральный: mod_a.py, mod_b.py, а не extract.py → transform.py → load.py — чтобы модель не могла угадать архитектуру по именам файлов.

Четыре типа рёбер, от простых к сложным:

* IMPORTS (~67%): обычные Python-импорты, видны через AST. Любой парсер найдёт.
* CALLS_API (~17%): рантаймовые вызовы функций между модулями. Нужно читать тела функций, хотя докстринги могут подсказать ("delegates to module X", “wraps module X” и т.п.).
* REGISTRY_WIRES (~9%): динамическая загрузка через config. Реестр читает pipeline_config.json и загружает стейджи через importlib — никакого import statement в коде нет. Нужно прочитать и конфиг, и логику загрузки.
* DATA_FLOWS_TO (~7%): данные одного модуля идут на вход другому. Нужно понять логику оркестрации в runner.py — multi-hop reasoning, откуда что берётся и куда уходит.

Суть в том, что примерно треть рёбер невидима для import-following. Это и создаёт осмысленный разрыв между синтаксическим анализом и семантическим пониманием.

Читать полностью…

gonzo-обзоры ML статей

Земля более не будет вращаться под ногами лишь одного солипсиста Иванова. Теперь все солипсисты будут вращать её одновременно!

Вообще потенциально большая тема имхо.

Solaris: Building a Multiplayer Video World Model in Minecraft
Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
Статья: https://arxiv.org/abs/2602.22208
Код: https://github.com/solaris-wm/solaris
Модель: https://huggingface.co/collections/nyu-visionx/solaris-models
Ревью: https://arxiviq.substack.com/p/solaris-building-a-multiplayer-video

# TL;DR

ЧТО сделали:
Исследователи из Нью-Йоркского университета разработали Solaris — многоагентную видеомодель мира, способную симулировать согласованные наблюдения с разных ракурсов для нескольких взаимодействующих игроков в Minecraft. Для этого они написали жёстко контролируемый движок оркестрации данных (SolarisEngine), который позволил собрать 12.64 млн синхронизированных мультиплеерных кадров. Авторы модифицировали архитектуру для расшаривания пространственно-временного внимания между агентами и предложили алгоритм Checkpointed Self Forcing для стабильного и эффективного по памяти обучения на длинных горизонтах.

ПОЧЕМУ это важно:
Текущие видеомодели мира по своей природе солипсичны — они моделируют среду только от лица одного агента. Доказав, что единая диффузионная архитектура может поддерживать согласованность перспектив и пространственную память одновременно для нескольких точек зрения, эта работа закладывает структурный фундамент для обучения foundation моделей, способных точно симулировать сложные многоагентные среды. Это критически важный шаг для генерации синтетических данных и многоагентного обучения с подкреплением (RL).

Вращать землю тут: /channel/gonzo_ML_podcasts/2757

Читать полностью…

gonzo-обзоры ML статей

Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз от китайцев. Другие недавние были тут: KernelEvolve, VibeTensor (этот был на более высоком уровне абстракции).

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
Статья: https://arxiv.org/abs/2602.24286
Код: https://cuda-agent.github.io/
Ревью: https://arxiviq.substack.com/p/cuda-agent-large-scale-agentic-rl

# TL;DR

ЧТО сделали: Исследователи из ByteDance и Университета Цинхуа представили фреймворк на базе обучения с подкреплением, который учит LLM-агента автономно писать, профилировать и оптимизировать низкоуровневые CUDA-ядра. С помощью нового синтетического датасета из более чем 6000 композитных PyTorch-операторов и строго изолированной песочницы для запуска кода, система использует Proximal Policy Optimization (PPO) вместе с хитрыми стратегиями предобучения для стабилизации многошагового агентного обучения.

ПОЧЕМУ это важно: Ручная оптимизация GPU-ядер — это невероятно сложный и узкоспециализированный навык, который тормозит быстрое внедрение новых архитектур нейросетей. Авторы доказали, что агентная RL-система может стабильно находить кастомные паттерны доступа к памяти и специфичные для железа слияния операторов (operator fusions). Работа успешно обходит статические эвристики компиляторов вроде torch.compile и превосходит универсальные frontier-модели, открывая путь к полностью автоматизированному аппаратному перформанс-инжинирингу.

Сливать операции тут: /channel/gonzo_ML_podcasts/2745

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE.

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
Статья: https://arxiv.org/abs/2603.03276
Ревью: https://arxiviq.substack.com/p/beyond-language-modeling-an-exploration
Сайт: https://beyond-llms.github.io/

# TL;DR

ЧТО сделали: Исследователи из FAIR и NYU провели контролируемое эмпирическое исследование унифицированного мультимодального предобучения с нуля. Объединив предсказание следующего дискретного токена для текста и непрерывный flow matching для зрения в одной архитектуре, они систематически изолировали переменные, управляющие мультимодальным обучением. Они показали, что единый автоэнкодер репрезентаций (Representation Autoencoder, RAE) отлично справляется и с пониманием, и с генерацией, а архитектура Mixture-of-Experts (MoE) естественно решает проблему асимметрии скейлинга между текстом и картинками.

ПОЧЕМУ это важно: Сейчас доминирует подход, при котором визуальные адаптеры просто прикручивают к замороженным языковым моделям. Эта парадигма смешивает новые мультимодальные способности с унаследованными текстовыми прайорами. Обучив модель с нуля, авторы этой работы картировали нативные законы скейлинга для унифицированных моделей. Они доказали, что конкуренция между модальностями — это по большей части архитектурный артефакт, а не фундаментальный недостаток. Заодно показали, что способности к world modeling (например, навигация в среде по текстовым командам в свободной форме) появляются в zero-shot режиме исключительно за счёт общего мультимодального предобучения.

Сливать модальности тут: /channel/gonzo_ML_podcasts/2718

Читать полностью…

gonzo-обзоры ML статей

Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :)

В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая модель их верифицировала и в идеале принимала сразу несколько за раз, но драфт модель простаивала во время верификации.

В SSD драфт модель пытается угадать результат верификации, строя дерево (кактус) вариантов и к моменту, когда валидация готова, у неё в кеше уже есть несколько продолжений.

Speculative Speculative Decoding
Tanishq Kumar, Tri Dao, Avner May
Статья: https://arxiv.org/abs/2603.03251
Код: https://github.com/tanishqkumar/ssd
Ревью: https://arxiviq.substack.com/p/speculative-speculative-decoding

# TL;DR

ЧТО сделали: Авторы представляют Speculative Speculative Decoding (SSD) и его оптимизированную реализацию Saguaro. SSD разрушает последовательную зависимость между генерацией черновика (drafting) и верификацией в стандартном спекулятивном декодировании. Теперь draft-модель предсказывает результаты верификации и проактивно генерирует спекуляции параллельно с тем, как target-модель проверяет предыдущий шаг.

ПОЧЕМУ это важно: Эффективно скрывая задержку (latency) генерации черновика за вычислениями верификации, SSD достигает ускорения до 2х по сравнению с оптимизированными бейзлайнами спекулятивного декодирования и до 5х по сравнению со стандартным авторегрессионным декодированием. Что критично, подход расширяет строгую границу Парето между задержкой и пропускной способностью (throughput), доказывая, что спекулятивные методы могут стать более вычислительно эффективными в расчете на одно устройство за счет агрессивного асинхронного параллелизма.

Спекулировать тут: /channel/gonzo_ML_podcasts/2694

Читать полностью…

gonzo-обзоры ML статей

AGI. SAI!

AI Must Embrace Specialization via Superhuman Adaptable Intelligence
Judah Goldfeder, Philippe Wyder, Yann LeCun, Ravid Shwartz-Ziv
Paper: https://arxiv.org/abs/2602.23643
Review: https://arxiviq.substack.com/p/ai-must-embrace-specialization-via

# TL;DR

ЧТО сделали: Авторы методично деконструируют господствующую концепцию Artificial General Intelligence (AGI). Они доказывают, что человеческий интеллект по своей природе специализирован, а не универсален. Взамен предлагается фреймворк Superhuman Adaptable Intelligence (SAI) — концепция, которая смещает главную цель ИИ-исследований со статического чек-листа навыков на измеримую скорость приобретения новых скиллов и адаптации в полезных доменах.

ПОЧЕМУ это важно: Погоня за монолитным AGI, умеющим всё на свете, вычислительно неразрешима и уводит исследования по ложному пути. Смена ориентира индустрии на SAI даёт проверяемые бенчмарки, основанные на времени адаптации. Это перенаправляет инженерный фокус с простого предсказания следующего токена на self-supervised learning, модульные архитектуры и предиктивные модели мира.

Специализироваться тут: /channel/gonzo_ML_podcasts/2684

Читать полностью…

gonzo-обзоры ML статей

Любопытная работа про память RNN и подобных линейных моделей.

Memory Caching: RNNs with Growing Memory
Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni
Статья: https://arxiv.org/abs/2602.24281
Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний.

Довольно сильно похоже на Hierarchical Sparse Attention (/channel/gonzo_ML_podcasts/1574), но они на неё даже не ссылаются. Может быть в комбинации с Titans (/channel/gonzo_ML_podcasts/1300).

ПОЧЕМУ это важно:
Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью O(L) у RNN и растущей за O(L^2) ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack.

Подробнее: /channel/gonzo_ML_podcasts/2656

Читать полностью…

gonzo-обзоры ML статей

Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :)

Завтра новая неделя, и для тех, кому после тяжёлого трудового дня хочется всех замочить, мы вместе с Клод кодом сделали простую браузерную игру, где можно делать это безопасно:

https://cloud-heavy-industries.com/grumbulus/

Мочите на здоровье!

Читать полностью…

gonzo-обзоры ML статей

Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают!

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes
Статья: https://arxiv.org/abs/2603.14482
Код и модели: https://github.com/facebookresearch/vjepa2
Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features

# TL;DR

ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи.

ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI.

Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники.

Выделять фичи тут: /channel/gonzo_ML_podcasts/2846

Читать полностью…

gonzo-обзоры ML статей

Пост про RL для ризонинг моделей

https://aweers.de/blog/2026/rl-for-llms/

Читать полностью…

gonzo-обзоры ML статей

Добыча ценного реварда из текущего взаимодействия агента со средой.

OpenClaw-RL: Train Any Agent Simply by Talking
Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
Статья: https://arxiv.org/abs/2603.10165
Код: https://github.com/Gen-Verse/OpenClaw-RL
Ревью: https://arxiviq.substack.com/p/openclaw-rl-train-any-agent-simply

# TL;DR

ЧТО сделали:
Исследователи из Принстонского университета представили OpenClaw-RL — асинхронный фреймворк для непрерывного обучения языковых агентов прямо во время их работы (live deployment). Разделив инференс политики, выполнение в среде, оценку реворда и обучение модели на независимые асинхронные циклы, система улавливает "сигналы следующего состояния" (next-state signals, такие как исправления от пользователя или ошибки в терминале). Затем эти сигналы превращаются в градиенты для оптимизации с помощью комбинации скалярных Process Reward Models (PRMs) (https://arxiv.org/abs/2305.20050) и дистилляции на уровне токенов (Hindsight-Guided On-Policy Distillation, OPD).

ПОЧЕМУ это важно:
Современная парадигма элайнмента сильно зависит от собранных батчами статических датасетов или итоговых эпизодических ревордов, которые дают крайне разреженный сигнал для credit assignment в длинных задачах. Разработав неблокирующую архитектуру, которая динамически впитывает неявный фидбек от пользователя и среды без паузы на инференс, авторы предлагают рабочий концепт для самообучающихся агентов. Это позволяет им адаптироваться в реальном времени, существенно решая проблему сбора данных в современном обучении с подкреплением.

Ревард получать тут: /channel/gonzo_ML_podcasts/2820

Читать полностью…

gonzo-обзоры ML статей

Но и других интересных картинок вам до кучи.

Про движение к опенсорсу и коалицию по продвижению открытых моделей тоже интересно.

Читать полностью…

gonzo-обзоры ML статей

Респект FAIR, выкатили работу про очень мультиязычный перевод!

Omnilingual MT: Machine Translation for 1,600 Languages
The Omnilingual MT Team, Belen Alastruey, Niyati Bafna, Andrea Caciolai, Kevin Heffernan, Artyom Kozhevnikov, Christophe Ropers, Eduardo Sánchez, Charles-Eric Saint-James, Ioannis Tsiamas, Chierh Cheng, Joe Chuang, Paul-Ambroise Duquenne, Mark Duppenthaler, Nate Ekberg, Cynthia Gao, Pere Lluís Huguet Cabot, João Maria Janeiro, Jean Maillard, Gabriel Mejia Gonzalez, Holger Schwenk, Edan Toledo, Arina Turkatenko, Albert Ventayol-Boada, Rashel Moritz, Alexandre Mourachko, Surya Parimi, Mary Williamson, Shireen Yates, David Dale, Marta R. Costa-jussà
Статья: https://ai.meta.com/research/publications/omnilingual-mt-machine-translation-for-1600-languages/
Ревью: https://arxiviq.substack.com/p/omnilingual-mt-machine-translation
Бенчмарк: https://huggingface.co/spaces/facebook/bouquet

# TL;DR

ЧТО сделали: Исследователи из FAIR представили Omnilingual Machine Translation (OMT) — комплексный набор моделей, датасетов и метрик, расширяющий поддержку машинного перевода до более чем 1600 языков. Авторы предлагают два архитектурных пути: decoder-only линейку (OMT-LLaMA) на базе LLaMA 3 и encoder-decoder модель на 3B параметров (OMT-NLLB), основанную на кросс-языковом пространстве эмбеддингов OmniSONAR. Для поддержки такого масштаба команда также собрала seed-датасет MeDLEy, фреймворки для оценки BOUQuET и Met-BOUQuET, а также reference-free метрику оценки качества BLASER 3.

ПОЧЕМУ это важно: Работа преодолевает потолок в ~200 языков, который последние несколько лет был пределом для массивно мультиязычного перевода. Что ещё важнее, авторы изолируют и решают проблему "узкого горлышка генерации" (generation bottleneck) — явления, когда большие модели понимают малоресурсные языки за счёт кросс-языкового переноса, но не могут генерировать на них связный текст. Показывая, что специализированные модели на 1–8B параметров могут сравниться с 70B фундаментальными моделями или даже превзойти их в качестве перевода, это исследование задаёт Парето-оптимальный вектор для глобальной языковой инклюзивности.

Для практиков: Статья наглядно демонстрирует, что для глобального деплоя LLM простое наращивание параметров — неэффективный способ охватить длинный хвост человеческих языков. Вместо этого точечные вмешательства, такие как масштабное расширение словаря, выравнивание кросс-языковых эмбеддингов предложений и генерация структурированных данных по грамматическим парадигмам, дают лучшее качество перевода при кратно меньших затратах на инференс. Появление BLASER 3 также даёт масштабируемую автоматизированную альтернативу дорогой человеческой оценке (quality estimation) для тысяч диалектов и письменностей.

Копать тут: /channel/gonzo_ML_podcasts/2792

Читать полностью…

gonzo-обзоры ML статей

Новая работа про attention sinks и огромные активации. Этой теме также была посвящена работа команды Qwen с NeurIPS 2025 Best Paper Award. Там проблему решали, а здесь ещё и объясняют механику возникновения.

Редкий пример работы, когда абляции особенно интересны!

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu
Статья: https://arxiv.org/abs/2603.05498
Ревью: https://arxiviq.substack.com/p/the-spike-the-sparse-and-the-sink
Код: N/A
Модель: N/A

# TL;DR

ЧТО сделали:
Исследователи из Нью-Йоркского университета механистически препарировали и разделили два повсеместных феномена в современных LLM: массивные активации (экстремальные выбросы магнитуды в специфических скрытых каналах) и attention sinks (непропорционально большая масса внимания, направленная на начальные токены или разделители). Через строгие абляции архитектур в стиле LLaMA они доказывают, что массивные активации работают как неявные глобальные параметры, генерируемые ранними feed-forward блоками. В то же время слои нормализации независимо сплющивают эти выбросы в разреженные, инвариантные субстраты, которые головы внимания радостно используют для сброса лишней массы вероятности.

ПОЧЕМУ это важно:
Эта работа ставит точку в спорах, доказывая, что постоянное пересечение массивных активаций и attention sinks — это просто случайный артефакт архитектуры трансформера с pre-norm, а не какая-то функциональная необходимость. Изменив логику нормализации или добавив динамический гейтинг, можно полностью искоренить массивные активации без малейшего ущерба для качества моделирования языка. На практике это открывает прямой архитектурный путь к инференсу в сверхнизком разрешении и радикальному сокращению KV-кэша, избавляя инженеров от необходимости городить сложные костыли.

Разбираться с активациями и чинить сливы тут: /channel/gonzo_ML_podcasts/2770

Читать полностью…

gonzo-обзоры ML статей

В коде есть штука, которой нет в пространственных средах (ну или она там не так важна, хотя в принципе тоже есть) — архитектурный замысел (“туда не ходи, сюда ходи”). Запрещённая зависимость — это граница сервиса. Цепочка валидации — это гарантия целостности данных. Это проверяемые ограничения, которые можно заложить в кодовую базу и измерить, находят ли их агенты. Назвал это Architectural Constraint Discovery.

Конкретно, в каждую кодовую базу закладываем 15-16 ограничений пяти типов:
* BOUNDARY: запрещённые зависимости ("mod_a не должен импортировать mod_c напрямую — только через базовый класс")
* INTERFACE: доступ только через ABC ("стейджи общаются только через StageBase, не напрямую друг с другом")
* DATAFLOW: обязательные цепочки обработки ("данные должны пройти валидацию перед попаданием в mod_w")
* INVARIANT: структурные конвенции (нейминг, организация пакетов)
* PURPOSE: design rationale — зачем модуль существует и какое архитектурное решение кодирует

Каждое ограничение имеет структурированную каноническую форму из пяти полей (type, src, dst, via, pattern) для автоматического скоринга — никакого LLM-судьи, чистое сравнение структур. И у каждого есть хотя бы один источник evidence в коде: тестовый файл, который ассертит ограничение, структурный паттерн, или документация в докстрингах. Агент не должен угадывать скрытые правила — он должен их найти.

Начал с простого. Упомянутая синтетическая кодовая база на питоне размером порядка 30 модулей. Прогнал на четырёх rule-based бейзлайнах и шести около-фронтирных LLM от трёх провайдеров. Это намеренно пока очень простой сетап, чтобы отладить сам подход к бенчмарку, понять что и как надо. Я сделал уже сколько-то итераций, но это явно ещё не финал. Сколько-то lessons learned уже получил, получу ещё больше 🙂

Тем не менее, даже на этом простом сетапе результаты удивили.

1️⃣ Active-Passive Gap (APG) зависит от модели. В пространственных задачах модели стабильно хуже в активном режиме. В коде — по-разному. GPT-5.3-Codex работает ЛУЧШЕ при активном исследовании, чем когда ему дают всю кодовую базу разом (APG = −0.22) — видимо, 30 файлов одновременно создают information overload. Gemini 2.5 Flash — наоборот (APG = +0.23). Активное исследование — это само по себе нетривиальная способность, которая есть не у всех моделей. Ну или тут есть и другие эффекты, от промптов и сетапа тоже многое зависит, надо ещё смотреть. То, что Gemini (которая давно уже с большим контекстом) хорошо работает для такого случая, это интересно, и немного ожидаемо -- неплохо научились оперировать большим контекстом. Но посмотрим потом, как это будет на более тяжёлой кодовой базе, рано или поздно и в большой контекст всё не влезет.

2️⃣ Self-scaffolding через belief externalization тоже model-dependent. Если оставлять JSON-карту в контексте (scratchpad mode), GPT получает +14 по F1 — использует свои предыдущие карты как рабочую память. Gemini не получает для обнаружения зависимостей никакого преимущества от того же механизма. Зато scratchpad помогает Gemini с инвариантами.

3️⃣ Стабильность belief state не коррелирует с размером модели. Gemini 2.5 Flash — идеально стабильные beliefs, ноль потерянных корректных рёбер за все пробы. Gemini 2.5 Pro — строит карту, а потом катастрофически коллапсирует, теряя 12 корректных рёбер за один шаг. Gemini 3 Flash — чистый recency bias, каждый проб содержит только последние 3-5 компонентов, как будто модель каждый раз суммаризирует архитектуру с нуля, а не обновляет. Возможно, надо ещё играть с промптами.

Читать полностью…

gonzo-обзоры ML статей

Интересное интервью с Джереми Ховардом. Много рассуждает на темы, что AI Coding != AI Software Engineering. Хорошо для баланса к восхитительным отзывам о CC/Codex/etc. Много здравых мыслей.

Интересны параллели между вайбкодингом и игровыми автоматами. Интересны мысли про риски ИИ, где централизация ИИ в руках жаждущих власти — это одно из худших будущих.

https://www.youtube.com/watch?v=dHBEQ-Ryo24

Читать полностью…

gonzo-обзоры ML статей

Свежего Пенроуза вам в ленту. С Тегмарком. К Пенроузу можно относиться по-разному, но как пища для ума он точно хорош.

https://youtu.be/YmZCGp8Cd-4

Видео, к сожалению, не полное, ведёт на сервис с платным доступом. Я пока не искал, можно ли его где-то ещё целиком посмотреть.

Читать полностью…

gonzo-обзоры ML статей

Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4. Эта версия конкретно заточена на Blackwell (B200, GB200), старая версия с заточкой на Hopper на новой архитектуре работает сильно субоптимально. Интересные особенности Blackwell в том, что архитектура очень неровно масштабировалась с предыдущих поколений, теперь матричные/тензорные модули уже не самое узкое место, им стала "обычная" математика.

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao
Статья: https://arxiv.org/abs/2603.05451
Код: https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute
Ревью: https://arxiviq.substack.com/p/flashattention-4-algorithm-and-kernel

# TL;DR

ЧТО сделали: Авторы представили совместный аппаратно-программный дизайн алгоритма для вычисления точного внимания, оптимизированный специально под архитектуру NVIDIA Blackwell. Метод вводит программную эмуляцию экспоненциальных функций, условное масштабирование софтмакса и новый подход к использованию тензорных ядер через 2-CTA, чтобы обойти аппаратные блоки, которые не масштабируются так же быстро, как сырые вычислительные мощности для матричного умножения.

ПОЧЕМУ это важно: Железо датацентров сейчас переживает экстремальное асимметричное масштабирование. Поскольку тензорные ядра в Blackwell более чем в два раза быстрее предыдущего поколения, а пропускная способность памяти и блоки вычисления экспонент застряли на месте, старые алгоритмы оставляют огромные вычислительные мощности простаивать. Тщательно перестроив математику под физический пайплайн, этот подход достигает 1613 TFLOPs/s, закладывая необходимый фундамент для эффективного деплоя моделей с длинным контекстом на кластерах следующего поколения.

Оптимизировать тут: /channel/gonzo_ML_podcasts/2732

Читать полностью…

gonzo-обзоры ML статей

Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!). Но только на реальных данных, которые видимо живут на соответствующем многообразии. Также доказали теорему о невозможности и подтвердили её экспериментальным наблюдением. Интересно.

Secret mixtures of experts inside your LLM

Enric Boix-Adsera
Статья: https://arxiv.org/abs/2512.18452
Код: https://github.com/eboix/secret_moe
Ревью: https://arxiviq.substack.com/p/secret-mixtures-of-experts-inside

# TL;DR

ЧТО сделали:
Исследователи разработали теоретический фреймворк и метод эмпирической дистилляции, которые показывают, что плотные слои (MLP) в обученных LLM по своей природе выполняют разреженные вычисления. Эти вычисления можно точно аппроксимировать слоями Mixture of Experts (MoE) с разреженной активацией. Строго доказано, что этот феномен опирается на словарно-разреженную (dictionary-sparse) структуру распределения внутренних активаций нейросети, а не только на саму архитектуру.

ПОЧЕМУ это важно:
Это открытие даёт механистическое объяснение тому, почему переход от плотных архитектур к MoE настолько эффективен в современных передовых моделях. Доказывая, что стандартные MLP уже обладают скрытой MoE-подобной структурой, работа перекидывает мост между теорией глубокого обучения и эмпирическим дизайном архитектур. Это даёт математически обоснованную причину для масштабирования разреженности и предлагает ресурсоэффективную парадигму для архитектурных экспериментов через послойную дистилляцию.

Разреживать тут: /channel/gonzo_ML_podcasts/2707

Читать полностью…

gonzo-обзоры ML статей

Говорят, загруженное (в смысле uploaded) существо:
https://x.com/michaelandregg/status/2030764512488677736

Взяли коннектом дрозофилы, собрали нейронную модель по типу этой статьи, запустили в MuJoCo симуляцию. Заявляют 91% behavior accuracy.

Статьи с деталями, кажется, пока нет.

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про "чужую" науку. Как генерить научные гипотезы, чуждые людям.

Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms
Alejandro H. Artiles, Martin Weiss, Levin Brinkmann, Anirudh Goyal, Nasim Rahaman
Статья: https://arxiv.org/abs/2603.01092
Код: https://anonymous.4open.science/r/Paper-atomyzer-82F4
Ревью: https://arxiviq.substack.com/p/alien-science-sampling-coherent-but

# TL;DR

ЧТО сделали:
Авторы представили пайплайн, который разбивает тысячи статей по машинному обучению на дискретные «атомы идей», а затем обучает две генеративные модели. Первая максимизирует структурную связность (coherence) комбинаций атомов, а вторая минимизирует их когнитивную доступность (availability) для типичных исследователей. Скомбинировав эти модели, система сэмплирует «инопланетные» направления исследований — строго логичные, но крайне маловероятные для того, чтобы их предложили живые учёные.

ПОЧЕМУ это важно:
Стандартные языковые модели, когда их просят сгенерировать научные идеи, склонны выдавать высоковероятные, но инкрементальные комбинации, сходясь к узкому спектру до боли знакомых концепций. Формально отделив правдоподобность идеи от того, насколько легко до неё может додуматься человек, этот фреймворк позволяет исследователям намеренно изучать слепые зоны научного сообщества. Это смещает роль ИИ с простого ускорения брейншторминга на дополнение его по-настоящему неочевидными траекториями.

Чудить тут: /channel/gonzo_ML_podcasts/2668

Читать полностью…

gonzo-обзоры ML статей

Польза файликов AGENTS.md переоценена. Особенно если они не ручные.

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
Статья: https://arxiv.org/abs/2602.11988
Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository

# TL;DR

ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как AGENTS.md) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста.

ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи.

Подробнее: /channel/gonzo_ML_podcasts/2646

Читать полностью…
Subscribe to a channel