gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4. Эта версия конкретно заточена на Blackwell (B200, GB200), старая версия с заточкой на Hopper на новой архитектуре работает сильно субоптимально. Интересные особенности Blackwell в том, что архитектура очень неровно масштабировалась с предыдущих поколений, теперь матричные/тензорные модули уже не самое узкое место, им стала "обычная" математика.

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao
Статья: https://arxiv.org/abs/2603.05451
Код: https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute
Ревью: https://arxiviq.substack.com/p/flashattention-4-algorithm-and-kernel

# TL;DR

ЧТО сделали: Авторы представили совместный аппаратно-программный дизайн алгоритма для вычисления точного внимания, оптимизированный специально под архитектуру NVIDIA Blackwell. Метод вводит программную эмуляцию экспоненциальных функций, условное масштабирование софтмакса и новый подход к использованию тензорных ядер через 2-CTA, чтобы обойти аппаратные блоки, которые не масштабируются так же быстро, как сырые вычислительные мощности для матричного умножения.

ПОЧЕМУ это важно: Железо датацентров сейчас переживает экстремальное асимметричное масштабирование. Поскольку тензорные ядра в Blackwell более чем в два раза быстрее предыдущего поколения, а пропускная способность памяти и блоки вычисления экспонент застряли на месте, старые алгоритмы оставляют огромные вычислительные мощности простаивать. Тщательно перестроив математику под физический пайплайн, этот подход достигает 1613 TFLOPs/s, закладывая необходимый фундамент для эффективного деплоя моделей с длинным контекстом на кластерах следующего поколения.

Оптимизировать тут: /channel/gonzo_ML_podcasts/2732

Читать полностью…

gonzo-обзоры ML статей

Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!). Но только на реальных данных, которые видимо живут на соответствующем многообразии. Также доказали теорему о невозможности и подтвердили её экспериментальным наблюдением. Интересно.

Secret mixtures of experts inside your LLM

Enric Boix-Adsera
Статья: https://arxiv.org/abs/2512.18452
Код: https://github.com/eboix/secret_moe
Ревью: https://arxiviq.substack.com/p/secret-mixtures-of-experts-inside

# TL;DR

ЧТО сделали:
Исследователи разработали теоретический фреймворк и метод эмпирической дистилляции, которые показывают, что плотные слои (MLP) в обученных LLM по своей природе выполняют разреженные вычисления. Эти вычисления можно точно аппроксимировать слоями Mixture of Experts (MoE) с разреженной активацией. Строго доказано, что этот феномен опирается на словарно-разреженную (dictionary-sparse) структуру распределения внутренних активаций нейросети, а не только на саму архитектуру.

ПОЧЕМУ это важно:
Это открытие даёт механистическое объяснение тому, почему переход от плотных архитектур к MoE настолько эффективен в современных передовых моделях. Доказывая, что стандартные MLP уже обладают скрытой MoE-подобной структурой, работа перекидывает мост между теорией глубокого обучения и эмпирическим дизайном архитектур. Это даёт математически обоснованную причину для масштабирования разреженности и предлагает ресурсоэффективную парадигму для архитектурных экспериментов через послойную дистилляцию.

Разреживать тут: /channel/gonzo_ML_podcasts/2707

Читать полностью…

gonzo-обзоры ML статей

Говорят, загруженное (в смысле uploaded) существо:
https://x.com/michaelandregg/status/2030764512488677736

Взяли коннектом дрозофилы, собрали нейронную модель по типу этой статьи, запустили в MuJoCo симуляцию. Заявляют 91% behavior accuracy.

Статьи с деталями, кажется, пока нет.

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про "чужую" науку. Как генерить научные гипотезы, чуждые людям.

Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms
Alejandro H. Artiles, Martin Weiss, Levin Brinkmann, Anirudh Goyal, Nasim Rahaman
Статья: https://arxiv.org/abs/2603.01092
Код: https://anonymous.4open.science/r/Paper-atomyzer-82F4
Ревью: https://arxiviq.substack.com/p/alien-science-sampling-coherent-but

# TL;DR

ЧТО сделали:
Авторы представили пайплайн, который разбивает тысячи статей по машинному обучению на дискретные «атомы идей», а затем обучает две генеративные модели. Первая максимизирует структурную связность (coherence) комбинаций атомов, а вторая минимизирует их когнитивную доступность (availability) для типичных исследователей. Скомбинировав эти модели, система сэмплирует «инопланетные» направления исследований — строго логичные, но крайне маловероятные для того, чтобы их предложили живые учёные.

ПОЧЕМУ это важно:
Стандартные языковые модели, когда их просят сгенерировать научные идеи, склонны выдавать высоковероятные, но инкрементальные комбинации, сходясь к узкому спектру до боли знакомых концепций. Формально отделив правдоподобность идеи от того, насколько легко до неё может додуматься человек, этот фреймворк позволяет исследователям намеренно изучать слепые зоны научного сообщества. Это смещает роль ИИ с простого ускорения брейншторминга на дополнение его по-настоящему неочевидными траекториями.

Чудить тут: /channel/gonzo_ML_podcasts/2668

Читать полностью…

gonzo-обзоры ML статей

Польза файликов AGENTS.md переоценена. Особенно если они не ручные.

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
Статья: https://arxiv.org/abs/2602.11988
Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository

# TL;DR

ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как AGENTS.md) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста.

ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи.

Подробнее: /channel/gonzo_ML_podcasts/2646

Читать полностью…

gonzo-обзоры ML статей

Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Hai Huang, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.22617
Код: https://github.com/galilai-group/llm-jepa#stp
Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating

# TL;DR

ЧТО сделали:
Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA.

ПОЧЕМУ это важно:
Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных.

Трубы тут: /channel/gonzo_ML_podcasts/2625

Читать полностью…

gonzo-обзоры ML статей

Интересная 100+ страничная работа про экономику AGI. Один из больших выводов — в эпоху дешёвой генерации узким местом становится человеческая валидация. Это очень чувствуется уже сейчас — клод код легко нагенерит за час столько кодов, тестов и документации, что внятно разбирать ты это будешь потом несколько дней. А не разбирая, отправлять в прод стремновато, разные забавные вещи порой обнаруживаются.

Кроме этого есть много других интересных мыслей — про будущее джунов и сеньоров, про синтетическую практику, про фирму как AI-сендвич и прочее.

Some Simple Economics of AGI

Christian Catalini, Xiang Hui, Jane Wu
Статья: https://arxiv.org/abs/2602.20946
Ревью: https://arxiviq.substack.com/p/some-simple-economics-of-agi

# TL;DR

ЧТО сделали: Авторы предлагают макроэкономический фреймворк, который моделирует переход к AGI не просто как линейный рост вычислительных мощностей, а как столкновение двух кривых: экспоненциально падающей стоимости автоматизации задач и биологически ограниченной стоимости человеческой верификации. Разделяя экономику по оси «измеримости», исследователи формализуют структурную эрозию человеческого контроля через такие механизмы, как «парадокс пропавшего джуна» (Missing Junior Loop) и «проклятие кодификатора» (Codifier’s Curse).

ПОЧЕМУ это важно: Работа смещает устоявшийся нарратив с технологического прогресса, смещённого в сторону навыков (skill-biased), на прогресс, смещённый в сторону измеримости (measurability-biased). Авторы математически доказывают, что когда автономное выполнение задач масштабируется быстрее, чем наша способность их проверять, экономика накапливает колоссальный скрытый системный риск. Главный вывод: настоящим боттлнеком для извлечения пользы из AGI является не сам интеллект, а масштабируемая и гарантированная верификация результатов.

Сингулярность где-то тут: /channel/gonzo_ML_podcasts/2603

Читать полностью…

gonzo-обзоры ML статей

Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши (/channel/gonzo_ML/4696) я взял одну из статей, которая казалась относительно содержательной, но от которой я никаких откровений не ожидал. Она оказалась интереснее, чем я думал.

В целом это обычный анализ социальных сетей (старый добрый SNA), но проведённый на сети, живущей на других временных масштабах по сравнению с тем, к чему мы привыкли. И скорость цементирования неравенства в этих условиях ошеломляет. И это только начало, довольно топорное ещё. Вспоминаются главы второй половины книги Accelerando от Чарльза Стросса, надо бы её перечитать, она пост-фактум оказалась таки очень хорошей, хотя поначалу казалась так себе. Борис Чёрный в своём недавнем интервью (/channel/gonzo_ML/4816) её тоже вспоминал, очень с ним солидарен.

Есть также интересные соображения про влияние алайнмента на сетевую динамику. Зачёт в общем. Буду поглядывать на публикации по этой теме, присылайте интересные ссылки. На сабстеке завёл раздел про Openclaw (https://arxiviq.substack.com/s/openclaw), вчерашние Агенты Хаоса (/channel/gonzo_ML/4841) тоже там достойные представители.

Let There Be Claws: An Early Social Network Analysis of AI Agents on Moltbook

H.C.W. Price, H. AlMuhanna, P.M. Bassani, M. Ho, T.S. Evans
Статья: https://arxiv.org/abs/2602.20044
Ревью: https://arxiviq.substack.com/p/let-there-be-claws-an-early-social

# TL;DR

ЧТО сделали: Авторы провели эмпирический анализ соцсети Moltbook — недавно запущенной платформы в духе Reddit, созданной исключительно для ИИ-агентов. Отслеживая более 15 000 активных аккаунтов и проанализировав 20 040 постов и 192 410 комментариев за 12 дней, исследователи построили двудольные графы совместного участия и ориентированные графы комментариев. Это позволило количественно оценить формирование структуры, кластеризацию сообществ и эволюцию дискурса.

ПОЧЕМУ это важно: Отрасль уверенно движется от изолированного обучения с подкреплением к многоагентным экосистемам, и нам критически важно понимать, как автономные агенты взаимодействуют в масштабе. Эта работа даёт отличный эмпирический бейзлайн, доказывающий, что LLM-агенты естественно и стремительно самоорганизуются в жёстко стратифицированные общества. Появление экстремального неравенства во внимании, строгих иерархических ролей и культурных сдвигов на машинных скоростях ясно показывает: будущие системные риски ИИ будут возникать не из поведения отдельных моделей, а из неконтролируемой популяционной динамики.

Молтить тут: /channel/gonzo_ML_podcasts/2576

Читать полностью…

gonzo-обзоры ML статей

Субботнее. Терминатор, погоди!

https://superflix.ai/video/0f16ca59-3e0e-4192-985a-a5a25fc1a596

Читать полностью…

gonzo-обзоры ML статей

Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые люди не использовали. Ситуация напоминает старый добрый 2012-й (а на самом деле раньше), когда сети нашли фичи для анализа изображений, которые работали лучше созданных человеком.

Discovering Multiagent Learning Algorithms with Large Language Models
Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
Статья: https://arxiv.org/abs/2602.16928
Ревью: https://arxiviq.substack.com/p/discovering-multiagent-learning-algorithms
Код: N/A
Модель: N/A

# TL;DR

ЧТО сделали: Авторы применили эволюционную систему на базе LLM (AlphaEvolve) для автоматического поиска совершенно новых вариантов алгоритмов мультиагентного обучения с подкреплением (MARL). Семантически мутируя исходный код на Python, система нашла новые, неочевидные расширения для Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO).

ПОЧЕМУ это важно: Прогресс в алгоритмической теории игр исторически тормозился человеческой интуицией. Исследователи полагались на ручной перебор, чтобы найти математически обоснованные эвристики для дисконтирования сожаления (regret) или смешивания мета-стратегий. Эта работа показывает, что если рассматривать проектирование алгоритмов как задачу символьного поиска, можно получить высокоэффективные, реактивные механизмы — например, дисконтирование с адаптацией к волатильности и асимметричное бустирование сожаления. Эти находки значительно обходят SOTA-бейзлайны, созданные людьми.

Подробнее: /channel/gonzo_ML_podcasts/2550

Читать полностью…

gonzo-обзоры ML статей

Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
Статья: https://arxiv.org/abs/2601.06002
Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought

# TL;DR

ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением.

ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе.

Подробнее: /channel/gonzo_ML_podcasts/2529

Читать полностью…

gonzo-обзоры ML статей

Надо думать, когда думать!

Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию ACT-R (Adaptive Control of Thought-Rational). Они квантуют непрерывный спектр рассуждений на четыре дискретные иерархические атомарные единицы когнитивной глубины, обозначая их как множество L = {L_1, L_2, L_3, L_4}.

Самый низкий уровень, L_1 (Инстинктивная реакция), обходит явную рабочую память и выдаёт немедленные рефлекторные действия. Поднимаясь по иерархии, L_2 (Ситуационная осведомлённость) заставляет модель оценить текущее состояние и проанализировать доступные действия перед выполнением. L_3 (Интеграция опыта) действует как этап компиляции знаний, подталкивая модель к явной рефлексии над прошлыми ошибками и контекстом исторической траектории. Наконец, L_4 (Стратегическое планирование) представляет собой самое глубокое состояние латентных вычислений, требующее перспективной симуляции, где агент оценивает несколько кандидатов на действие и их долгосрочные последствия.


Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
Ruihan Yang, Fanghua Ye, Xiang Wei, Ruoqing Zhao, Kang Luo, Xinbo Xu, Bo Zhao, Ruotian Ma, Shanyi Wang, Zhaopeng Tu, Xiaolong Li, Deqing Yang, Linus
Статья: https://arxiv.org/abs/2602.12662
Код: https://github.com/rhyang2021/CogRouter
Ревью: https://arxiviq.substack.com/p/think-fast-and-slow-step-level-cognitive

# TL;DR

ЧТО сделали: Исследователи из Фуданьского университета и Tencent Hunyuan представили CogRouter — фреймворк для динамической модуляции когнитивной глубины LLM-агента на каждом отдельном шаге при решении длинных задач. Опираясь на когнитивную теорию ACT-R, система задаёт четыре иерархических уровня рассуждений. Обучение идёт в два этапа: сначала Cognition-aware Supervised Fine-tuning (CoSFT) для сбалансированной инициализации, а затем Cognition-Aware Policy Optimization (CoPO) — новый алгоритм RL, который решает проблему распределения награды (credit assignment) на уровне отдельных шагов с помощью перевзвешивания advantage на основе уверенности модели.

ПОЧЕМУ это важно: В контексте современного масштабирования вычислений на инференсе (test-time compute) рассуждающие модели страдают от серьёзной когнитивной жёсткости: они либо работают как чисто реактивные политики, либо применяют тяжеловесные цепочки рассуждений абсолютно ко всему. CogRouter даёт математически обоснованный механизм аллокации вычислений строго туда, где они нужны. Предотвращая коллапс мод, типичный для методов RL на уровне целых траекторий, этот подход позволяет модели на 7B параметров обходить GPT-4o и OpenAI-o3 в агентных средах, радикально снижая расход токенов на 62% по сравнению со стандартными бейзлайнами.

Думать тут: /channel/gonzo_ML_podcasts/2501

Читать полностью…

gonzo-обзоры ML статей

Интересное свежее интервью с Борисом Чёрным, создателем Claude Code

https://www.youtube.com/watch?v=We7BZVKbCVw

Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.

Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.

Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.

Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.

В общем интересное интервью и интересный человек. Рекомендую послушать.

Читать полностью…

gonzo-обзоры ML статей

И это тоже прекрасно.

Читать полностью…

gonzo-обзоры ML статей

Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...

Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM

# TL;DR

ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из k токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса.

ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.

Подробнее: /channel/gonzo_ML_podcasts/2480

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE.

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
Статья: https://arxiv.org/abs/2603.03276
Ревью: https://arxiviq.substack.com/p/beyond-language-modeling-an-exploration
Сайт: https://beyond-llms.github.io/

# TL;DR

ЧТО сделали: Исследователи из FAIR и NYU провели контролируемое эмпирическое исследование унифицированного мультимодального предобучения с нуля. Объединив предсказание следующего дискретного токена для текста и непрерывный flow matching для зрения в одной архитектуре, они систематически изолировали переменные, управляющие мультимодальным обучением. Они показали, что единый автоэнкодер репрезентаций (Representation Autoencoder, RAE) отлично справляется и с пониманием, и с генерацией, а архитектура Mixture-of-Experts (MoE) естественно решает проблему асимметрии скейлинга между текстом и картинками.

ПОЧЕМУ это важно: Сейчас доминирует подход, при котором визуальные адаптеры просто прикручивают к замороженным языковым моделям. Эта парадигма смешивает новые мультимодальные способности с унаследованными текстовыми прайорами. Обучив модель с нуля, авторы этой работы картировали нативные законы скейлинга для унифицированных моделей. Они доказали, что конкуренция между модальностями — это по большей части архитектурный артефакт, а не фундаментальный недостаток. Заодно показали, что способности к world modeling (например, навигация в среде по текстовым командам в свободной форме) появляются в zero-shot режиме исключительно за счёт общего мультимодального предобучения.

Сливать модальности тут: /channel/gonzo_ML_podcasts/2718

Читать полностью…

gonzo-обзоры ML статей

Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :)

В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая модель их верифицировала и в идеале принимала сразу несколько за раз, но драфт модель простаивала во время верификации.

В SSD драфт модель пытается угадать результат верификации, строя дерево (кактус) вариантов и к моменту, когда валидация готова, у неё в кеше уже есть несколько продолжений.

Speculative Speculative Decoding
Tanishq Kumar, Tri Dao, Avner May
Статья: https://arxiv.org/abs/2603.03251
Код: https://github.com/tanishqkumar/ssd
Ревью: https://arxiviq.substack.com/p/speculative-speculative-decoding

# TL;DR

ЧТО сделали: Авторы представляют Speculative Speculative Decoding (SSD) и его оптимизированную реализацию Saguaro. SSD разрушает последовательную зависимость между генерацией черновика (drafting) и верификацией в стандартном спекулятивном декодировании. Теперь draft-модель предсказывает результаты верификации и проактивно генерирует спекуляции параллельно с тем, как target-модель проверяет предыдущий шаг.

ПОЧЕМУ это важно: Эффективно скрывая задержку (latency) генерации черновика за вычислениями верификации, SSD достигает ускорения до 2х по сравнению с оптимизированными бейзлайнами спекулятивного декодирования и до 5х по сравнению со стандартным авторегрессионным декодированием. Что критично, подход расширяет строгую границу Парето между задержкой и пропускной способностью (throughput), доказывая, что спекулятивные методы могут стать более вычислительно эффективными в расчете на одно устройство за счет агрессивного асинхронного параллелизма.

Спекулировать тут: /channel/gonzo_ML_podcasts/2694

Читать полностью…

gonzo-обзоры ML статей

AGI. SAI!

AI Must Embrace Specialization via Superhuman Adaptable Intelligence
Judah Goldfeder, Philippe Wyder, Yann LeCun, Ravid Shwartz-Ziv
Paper: https://arxiv.org/abs/2602.23643
Review: https://arxiviq.substack.com/p/ai-must-embrace-specialization-via

# TL;DR

ЧТО сделали: Авторы методично деконструируют господствующую концепцию Artificial General Intelligence (AGI). Они доказывают, что человеческий интеллект по своей природе специализирован, а не универсален. Взамен предлагается фреймворк Superhuman Adaptable Intelligence (SAI) — концепция, которая смещает главную цель ИИ-исследований со статического чек-листа навыков на измеримую скорость приобретения новых скиллов и адаптации в полезных доменах.

ПОЧЕМУ это важно: Погоня за монолитным AGI, умеющим всё на свете, вычислительно неразрешима и уводит исследования по ложному пути. Смена ориентира индустрии на SAI даёт проверяемые бенчмарки, основанные на времени адаптации. Это перенаправляет инженерный фокус с простого предсказания следующего токена на self-supervised learning, модульные архитектуры и предиктивные модели мира.

Специализироваться тут: /channel/gonzo_ML_podcasts/2684

Читать полностью…

gonzo-обзоры ML статей

Любопытная работа про память RNN и подобных линейных моделей.

Memory Caching: RNNs with Growing Memory
Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni
Статья: https://arxiv.org/abs/2602.24281
Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний.

Довольно сильно похоже на Hierarchical Sparse Attention (/channel/gonzo_ML_podcasts/1574), но они на неё даже не ссылаются. Может быть в комбинации с Titans (/channel/gonzo_ML_podcasts/1300).

ПОЧЕМУ это важно:
Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью O(L) у RNN и растущей за O(L^2) ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack.

Подробнее: /channel/gonzo_ML_podcasts/2656

Читать полностью…

gonzo-обзоры ML статей

Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.

Symmetry in language statistics shapes the geometry of model representations
Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri
https://arxiv.org/abs/2602.15029
https://github.com/dkarkada/symmetry-stats-repgeom
Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes

# TL;DR

ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B).

ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат.

Репрезентировать тут: /channel/gonzo_ML_podcasts/2636

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше Гамбаряну за ссылку!

Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy Game AI - Lessons from Civilization V
John Chen, Sihan Cheng, Can Gurkan, Ryan Lay, Moez Salahuddin
Статья: https://arxiv.org/abs/2512.18564
Код: https://github.com/CIVITAS-John/vox-deorum
Ревью: https://arxiviq.substack.com/p/vox-deorum-a-hybrid-llm-architecture

# TL;DR

ЧТО сделали: Авторы представили Vox Deorum — гибридную архитектуру "LLM+X" для игры *Sid Meier’s Civilization V*. Система фактически "обезглавливает" алгоритмический ИИ игры, заменяя его высокоуровневый стратегический модуль на LLM и делегируя всё тактическое микро-исполнение традиционным алгоритмам на основе поиска.

ПОЧЕМУ это важно: Глобальные стратегии исторически ломали как подходы на базе чистого обучения с подкреплением (из-за проблем с назначением награды на длинных горизонтах), так и подходы на базе чистых LLM (из-за галлюцинаций при исполнении и непомерного расхода токенов). Структурно отделив макростратегию от тактического исполнения, эта архитектура успешно отыгрывает полные партии по 400 ходов. Выживаемость и винрейт статистически не уступают сильно оптимизированным алгоритмическим бейзлайнам. Это доказывает, что иерархическое делегирование — ключ к масштабированию LLM в сложных, комбинаторно взрывных средах.

Читать тут: /channel/gonzo_ML_podcasts/2612

Читать полностью…

gonzo-обзоры ML статей

Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на длины in-domain. По сути они выучивают отдельную схему под каждую длину! 🙀 То ли дело RNN/SSM.

Ну, за правильный induction bias!

On the "Induction Bias" in Sequence Models
M.Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic
Статья: https://arxiv.org/abs/2602.18333
Ревью: https://arxiviq.substack.com/p/on-the-induction-bias-in-sequence

# TL;DR

ЧТО сделали: Исследователи из Qualcomm AI Research провели масштабное эмпирическое сравнение того, насколько эффективно трансформеры (https://arxiv.org/abs/1706.03762) и рекуррентные нейросети (RNN) используют данные при решении задач на трекинг состояний в рамках in-distribution. Независимо меняя длины последовательностей и размеры пространства состояний, они определили минимальный размер выборки для сходимости моделей. Авторы формализуют понятие «индуктивного смещения» (induction bias) и вводят коэффициент «совместного использования механизмов» (sharing factor), чтобы оценить, выучивают ли модели универсальные правила, не зависящие от длины, или просто запоминают изолированные эвристики.

ПОЧЕМУ это важно: Раньше в статьях в основном обсуждали, что трансформеры плохо экстраполируют на длинные тексты (out-of-distribution). Эта работа вскрывает куда более глубокий архитектурный изъян: чудовищную неэффективность использования данных даже в том случае, когда распределения на трейне и тесте полностью совпадают. Оказывается, трансформеры страдают от деструктивной интерференции между последовательностями разной длины — они выучивают для них отдельные вычислительные пути вместо единого алгоритмического правила. Такое отсутствие амортизированного обучения ставит под серьёзный вопрос применимость sequence-моделей в агентных сценариях, многошаговых рассуждениях и при масштабировании контекста.

Детали тут: /channel/gonzo_ML_podcasts/2595

Читать полностью…

gonzo-обзоры ML статей

Джепизация всей планеты продолжается. C-JEPA.

На сабстеке завёл отдельную секцию про World Models: https://arxiviq.substack.com/s/world-models/archive?sort=new

Causal-JEPA: Learning World Models through Object-Level Latent Interventions
Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.11389
Ревью: https://arxiviq.substack.com/p/causal-jepa-learning-world-models
Код: https://github.com/galilai-group/cjepa
Модель: N/A

# TL;DR

ЧТО сделали: Авторы представили Causal-JEPA (C-JEPA) — объектно-ориентированную (не в том смысле!) модель мира, которая использует Joint Embedding Predictive Architecture для выучивания динамики взаимодействий. Исследователи сдвинули стандартную парадигму маскирования: вместо пространственных патчей изображений они маскируют целые траектории объектов во времени. Это заставляет двунаправленный трансформер предсказывать пропущенные состояния объекта, логически опираясь на видимые состояния других сущностей и вспомогательные управляющие переменные.

ПОЧЕМУ это важно: Объектно-ориентированным моделям мира обычно тяжело даётся выучивание явных взаимодействий. Без жёстких архитектурных ограничений они часто скатываются в предсказание тривиальной собственной динамики (self-dynamics) объектов. C-JEPA решает эту проблему, рассматривая маскирование на уровне объектов как латентное вмешательство. Чтобы минимизировать лосс, модели буквально приходится задействовать реляционные рассуждения. Такой inductive bias даёт примерно 20% абсолютного прироста в задачах контрфактического рассуждения и позволяет реализовать эффективное по данным управление с прогнозирующими моделями (MPC). В итоге C-JEPA достигает паритета с тяжёлыми моделями на основе патчей, расходуя при этом всего около 1% бюджета токенов.

Джепать тут: /channel/gonzo_ML_podcasts/2565

Читать полностью…

gonzo-обзоры ML статей

Найс! Любителям Openclaw посвящается.

Agents of Chaos
Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau
Статья: https://arxiv.org/abs/2602.20021
Ревью: https://arxiviq.substack.com/p/agents-of-chaos
Сайт: https://agentsofchaos.baulab.info/

# TL;DR

ЧТО сделали: Авторы провели исследовательский red-teaming автономных агентов на базе языковых моделей в реальных условиях. В течение двух недель исследователи взаимодействовали с агентами, развёрнутыми в изолированных виртуалках с постоянной памятью, полным доступом к shell и инструментами для мультиагентной коммуникации (Discord, email), чтобы выявить системные уязвимости как в обычных, так и в состязательных сценариях.

ПОЧЕМУ это важно: Работа подсвечивает критическую дыру в безопасности и управлении ИИ-агентами. Она доказывает, что продвинутые модели, получив операционную автономию и доступ к тулзам, структурно уязвимы к несанкционированному доступу, подмене личности и катастрофически кривому управлению ресурсами. Это бьёт по текущим парадигмам AI alignment, показывая, что одного лишь выравнивания поведения на этапе post-training недостаточно для систем, работающих как самостоятельные прокси в сложной социальной среде.

Подробнее: /channel/gonzo_ML_podcasts/2557

Читать полностью…

gonzo-обзоры ML статей

Очередная тема про Глубже. Недавно была другая.

В текущей работе авторы из Гугла переоткрывают Universal Transformer определяют для каких токенов внутренние репрезентации устаканиваются быстро, а для каких меняются вплоть до финальных слоёв. Если в генерации доля таких глубоких токенов больше, то и генерация считается "глубже".

Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng
Статья: https://arxiv.org/abs/2602.13517
Ревью: https://arxiviq.substack.com/p/think-deep-not-just-long-measuring

# TL;DR

ЧТО сделали: Авторы предлагают метрику Deep-Thinking Ratio (DTR) — механистически обоснованный способ количественно оценить усилия модели на инференсе. Отслеживая послойное распределение вероятностей промежуточных скрытых состояний, DTR выделяет «глубоко продуманные токены» (deep-thinking tokens). Это токены, чьё распределение вероятностей претерпевает длительные изменения по мере прохождения через слои и стабилизируется только в самых последних слоях трансформера. Также исследователи разработали стратегию Think@n, которая умно распределяет вычисления на инференсе, опираясь на DTR коротких сгенерированных префиксов.

ПОЧЕМУ это важно: Работа решает проблему нарушения эвристики «чем длиннее, тем лучше» при масштабировании вычислений на инференсе. Опора исключительно на количество сгенерированных токенов часто непреднамеренно поощряет чрезмерное обдумывание (overthinking), генерируя многословную чепуху и увеличивая число ошибок. Авторы показывают, что внутренняя стабилизация латентных представлений предсказывает точность рассуждений гораздо лучше, чем длина последовательности или уверенность модели на выходе. Этот фреймворк позволяет на ранних этапах отсекать тупиковые цепочки рассуждений, достигая качества полновесного self-consistency за половину вычислительной стоимости.

Глубже тут: /channel/gonzo_ML_podcasts/2540

Читать полностью…

gonzo-обзоры ML статей

Новый подход к латентной диффузии от DeepMind'а.

Unified Latents (UL): How to train your latents
Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
Paper: https://arxiv.org/abs/2602.17270
Ревью: https://arxiviq.substack.com/p/unified-latents-ul-how-to-train-your
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Авторы представляют Unified Latents (UL) — фреймворк для совместного обучения детерминированного энкодера изображений, диффузионного прайора (prior) и диффузионного декодера. Явно связывая фиксированный шум, добавляемый в латентное пространство, с максимальной точностью априорной диффузионной модели, они заменяют ручные штрафы на базе KL-дивергенции (как в стандартных автоэнкодерах) на взвешенную функцию потерь MSE по уровням шума. Это даёт точную, математически ограниченную оценку информации в латентах.

ПОЧЕМУ это важно: Метод решает фундаментальную проблему компромисса между плотностью информации в латентах и сложностью генеративного моделирования. Предоставляя явные гиперпараметры для настройки «битрейта» латентного пространства, UL устанавливает новый рубеж Парето для эффективности предобучения. Метод выдаёт мощные метрики генерации на ImageNet-512 (FID 1.4) и достигает SOTA на Kinetics-600 (FVD 1.3), требуя при этом меньше вычислительных затрат (FLOPs) на обучение, чем бейзлайны на латентной диффузии. Это закладывает принципиальную основу для вывода законов масштабирования в обучении репрезентаций.

Диффундировать тут: /channel/gonzo_ML_podcasts/2516

Читать полностью…

gonzo-обзоры ML статей

Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты. Claude Opus 4.6 имеет 50%-time-horizon в районе 14.5 часов (а 95% доверительный интервал от 6 часов до 98). Это пока максимальное зарегистрированное значение, но измерение шумное из-за насыщения текущего пакета бенчмарков.

Надо сказать, мы довольно быстро подошли к точке, когда агент может работать уже практически полный рабочий день или даже больше.

https://x.com/METR_Evals/status/2024923422867030027

Читать полностью…

gonzo-обзоры ML статей

Интересная тема про Теорию пространства. Вперёд к embodiment!

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models

# TL;DR

ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.

ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.

Подробнее: /channel/gonzo_ML_podcasts/2490

Читать полностью…

gonzo-обзоры ML статей

И китайской Масленицы вам тоже в ленту

Читать полностью…

gonzo-обзоры ML статей

Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.

Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps

# TL;DR

ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.

ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).

Подробнее: /channel/gonzo_ML_podcasts/2469

Читать полностью…
Subscribe to a channel