gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Hai Huang, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.22617
Код: https://github.com/galilai-group/llm-jepa#stp
Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating

# TL;DR

ЧТО сделали:
Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA.

ПОЧЕМУ это важно:
Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных.

Трубы тут: /channel/gonzo_ML_podcasts/2625

Читать полностью…

gonzo-обзоры ML статей

Интересная 100+ страничная работа про экономику AGI. Один из больших выводов — в эпоху дешёвой генерации узким местом становится человеческая валидация. Это очень чувствуется уже сейчас — клод код легко нагенерит за час столько кодов, тестов и документации, что внятно разбирать ты это будешь потом несколько дней. А не разбирая, отправлять в прод стремновато, разные забавные вещи порой обнаруживаются.

Кроме этого есть много других интересных мыслей — про будущее джунов и сеньоров, про синтетическую практику, про фирму как AI-сендвич и прочее.

Some Simple Economics of AGI

Christian Catalini, Xiang Hui, Jane Wu
Статья: https://arxiv.org/abs/2602.20946
Ревью: https://arxiviq.substack.com/p/some-simple-economics-of-agi

# TL;DR

ЧТО сделали: Авторы предлагают макроэкономический фреймворк, который моделирует переход к AGI не просто как линейный рост вычислительных мощностей, а как столкновение двух кривых: экспоненциально падающей стоимости автоматизации задач и биологически ограниченной стоимости человеческой верификации. Разделяя экономику по оси «измеримости», исследователи формализуют структурную эрозию человеческого контроля через такие механизмы, как «парадокс пропавшего джуна» (Missing Junior Loop) и «проклятие кодификатора» (Codifier’s Curse).

ПОЧЕМУ это важно: Работа смещает устоявшийся нарратив с технологического прогресса, смещённого в сторону навыков (skill-biased), на прогресс, смещённый в сторону измеримости (measurability-biased). Авторы математически доказывают, что когда автономное выполнение задач масштабируется быстрее, чем наша способность их проверять, экономика накапливает колоссальный скрытый системный риск. Главный вывод: настоящим боттлнеком для извлечения пользы из AGI является не сам интеллект, а масштабируемая и гарантированная верификация результатов.

Сингулярность где-то тут: /channel/gonzo_ML_podcasts/2603

Читать полностью…

gonzo-обзоры ML статей

Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши (/channel/gonzo_ML/4696) я взял одну из статей, которая казалась относительно содержательной, но от которой я никаких откровений не ожидал. Она оказалась интереснее, чем я думал.

В целом это обычный анализ социальных сетей (старый добрый SNA), но проведённый на сети, живущей на других временных масштабах по сравнению с тем, к чему мы привыкли. И скорость цементирования неравенства в этих условиях ошеломляет. И это только начало, довольно топорное ещё. Вспоминаются главы второй половины книги Accelerando от Чарльза Стросса, надо бы её перечитать, она пост-фактум оказалась таки очень хорошей, хотя поначалу казалась так себе. Борис Чёрный в своём недавнем интервью (/channel/gonzo_ML/4816) её тоже вспоминал, очень с ним солидарен.

Есть также интересные соображения про влияние алайнмента на сетевую динамику. Зачёт в общем. Буду поглядывать на публикации по этой теме, присылайте интересные ссылки. На сабстеке завёл раздел про Openclaw (https://arxiviq.substack.com/s/openclaw), вчерашние Агенты Хаоса (/channel/gonzo_ML/4841) тоже там достойные представители.

Let There Be Claws: An Early Social Network Analysis of AI Agents on Moltbook

H.C.W. Price, H. AlMuhanna, P.M. Bassani, M. Ho, T.S. Evans
Статья: https://arxiv.org/abs/2602.20044
Ревью: https://arxiviq.substack.com/p/let-there-be-claws-an-early-social

# TL;DR

ЧТО сделали: Авторы провели эмпирический анализ соцсети Moltbook — недавно запущенной платформы в духе Reddit, созданной исключительно для ИИ-агентов. Отслеживая более 15 000 активных аккаунтов и проанализировав 20 040 постов и 192 410 комментариев за 12 дней, исследователи построили двудольные графы совместного участия и ориентированные графы комментариев. Это позволило количественно оценить формирование структуры, кластеризацию сообществ и эволюцию дискурса.

ПОЧЕМУ это важно: Отрасль уверенно движется от изолированного обучения с подкреплением к многоагентным экосистемам, и нам критически важно понимать, как автономные агенты взаимодействуют в масштабе. Эта работа даёт отличный эмпирический бейзлайн, доказывающий, что LLM-агенты естественно и стремительно самоорганизуются в жёстко стратифицированные общества. Появление экстремального неравенства во внимании, строгих иерархических ролей и культурных сдвигов на машинных скоростях ясно показывает: будущие системные риски ИИ будут возникать не из поведения отдельных моделей, а из неконтролируемой популяционной динамики.

Молтить тут: /channel/gonzo_ML_podcasts/2576

Читать полностью…

gonzo-обзоры ML статей

Субботнее. Терминатор, погоди!

https://superflix.ai/video/0f16ca59-3e0e-4192-985a-a5a25fc1a596

Читать полностью…

gonzo-обзоры ML статей

Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые люди не использовали. Ситуация напоминает старый добрый 2012-й (а на самом деле раньше), когда сети нашли фичи для анализа изображений, которые работали лучше созданных человеком.

Discovering Multiagent Learning Algorithms with Large Language Models
Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
Статья: https://arxiv.org/abs/2602.16928
Ревью: https://arxiviq.substack.com/p/discovering-multiagent-learning-algorithms
Код: N/A
Модель: N/A

# TL;DR

ЧТО сделали: Авторы применили эволюционную систему на базе LLM (AlphaEvolve) для автоматического поиска совершенно новых вариантов алгоритмов мультиагентного обучения с подкреплением (MARL). Семантически мутируя исходный код на Python, система нашла новые, неочевидные расширения для Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO).

ПОЧЕМУ это важно: Прогресс в алгоритмической теории игр исторически тормозился человеческой интуицией. Исследователи полагались на ручной перебор, чтобы найти математически обоснованные эвристики для дисконтирования сожаления (regret) или смешивания мета-стратегий. Эта работа показывает, что если рассматривать проектирование алгоритмов как задачу символьного поиска, можно получить высокоэффективные, реактивные механизмы — например, дисконтирование с адаптацией к волатильности и асимметричное бустирование сожаления. Эти находки значительно обходят SOTA-бейзлайны, созданные людьми.

Подробнее: /channel/gonzo_ML_podcasts/2550

Читать полностью…

gonzo-обзоры ML статей

Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
Статья: https://arxiv.org/abs/2601.06002
Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought

# TL;DR

ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением.

ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе.

Подробнее: /channel/gonzo_ML_podcasts/2529

Читать полностью…

gonzo-обзоры ML статей

Надо думать, когда думать!

Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию ACT-R (Adaptive Control of Thought-Rational). Они квантуют непрерывный спектр рассуждений на четыре дискретные иерархические атомарные единицы когнитивной глубины, обозначая их как множество L = {L_1, L_2, L_3, L_4}.

Самый низкий уровень, L_1 (Инстинктивная реакция), обходит явную рабочую память и выдаёт немедленные рефлекторные действия. Поднимаясь по иерархии, L_2 (Ситуационная осведомлённость) заставляет модель оценить текущее состояние и проанализировать доступные действия перед выполнением. L_3 (Интеграция опыта) действует как этап компиляции знаний, подталкивая модель к явной рефлексии над прошлыми ошибками и контекстом исторической траектории. Наконец, L_4 (Стратегическое планирование) представляет собой самое глубокое состояние латентных вычислений, требующее перспективной симуляции, где агент оценивает несколько кандидатов на действие и их долгосрочные последствия.


Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
Ruihan Yang, Fanghua Ye, Xiang Wei, Ruoqing Zhao, Kang Luo, Xinbo Xu, Bo Zhao, Ruotian Ma, Shanyi Wang, Zhaopeng Tu, Xiaolong Li, Deqing Yang, Linus
Статья: https://arxiv.org/abs/2602.12662
Код: https://github.com/rhyang2021/CogRouter
Ревью: https://arxiviq.substack.com/p/think-fast-and-slow-step-level-cognitive

# TL;DR

ЧТО сделали: Исследователи из Фуданьского университета и Tencent Hunyuan представили CogRouter — фреймворк для динамической модуляции когнитивной глубины LLM-агента на каждом отдельном шаге при решении длинных задач. Опираясь на когнитивную теорию ACT-R, система задаёт четыре иерархических уровня рассуждений. Обучение идёт в два этапа: сначала Cognition-aware Supervised Fine-tuning (CoSFT) для сбалансированной инициализации, а затем Cognition-Aware Policy Optimization (CoPO) — новый алгоритм RL, который решает проблему распределения награды (credit assignment) на уровне отдельных шагов с помощью перевзвешивания advantage на основе уверенности модели.

ПОЧЕМУ это важно: В контексте современного масштабирования вычислений на инференсе (test-time compute) рассуждающие модели страдают от серьёзной когнитивной жёсткости: они либо работают как чисто реактивные политики, либо применяют тяжеловесные цепочки рассуждений абсолютно ко всему. CogRouter даёт математически обоснованный механизм аллокации вычислений строго туда, где они нужны. Предотвращая коллапс мод, типичный для методов RL на уровне целых траекторий, этот подход позволяет модели на 7B параметров обходить GPT-4o и OpenAI-o3 в агентных средах, радикально снижая расход токенов на 62% по сравнению со стандартными бейзлайнами.

Думать тут: /channel/gonzo_ML_podcasts/2501

Читать полностью…

gonzo-обзоры ML статей

Интересное свежее интервью с Борисом Чёрным, создателем Claude Code

https://www.youtube.com/watch?v=We7BZVKbCVw

Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.

Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.

Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.

Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.

В общем интересное интервью и интересный человек. Рекомендую послушать.

Читать полностью…

gonzo-обзоры ML статей

И это тоже прекрасно.

Читать полностью…

gonzo-обзоры ML статей

Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...

Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM

# TL;DR

ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из k токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса.

ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.

Подробнее: /channel/gonzo_ML_podcasts/2480

Читать полностью…

gonzo-обзоры ML статей

Вчера приехал Claude Sonnet 4.6 (https://www.anthropic.com/news/claude-sonnet-4-6), сегодня выехала Gemini 3.1 Pro (https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/).

Прикольно, что Гугл уже успел сравниться со вчерашним Соннетом.

Читать полностью…

gonzo-обзоры ML статей

Отдельное прекрасное

Читать полностью…

gonzo-обзоры ML статей

Исследователи из DeepMind продолжают работать над агентной экономикой.

Intelligent AI Delegation
Nenad Tomašev, Matija Franklin, Simon Osindero
Статья: https://arxiv.org/abs/2602.11865
Ревью: https://arxiviq.substack.com/p/intelligent-ai-delegation

# TL;DR

ЧТО сделали: Исследователи из Google DeepMind предложили фреймворк «Intelligent Delegation» — протокол для передачи полномочий, ответственности и подотчетности в мультиагентных системах. Вместо простой декомпозиции задач предлагается подход contract-first: с динамической оценкой рисков, торгами и верифицируемым выполнением через криптографические доказательства.

ПОЧЕМУ это важно: Переход от изолированных чат-ботов к «агентному вебу» делает простые циклы использования инструментов (tool-use) хрупкими и небезопасными. Чтобы агенты могли нанимать других агентов (или людей) в среде с нулевым доверием (zero-trust), необходим жесткий фундамент, основанный на экономической теории принципала-агента и криптобезопасности.

Читать тут: /channel/gonzo_ML_podcasts/2438

Читать полностью…

gonzo-обзоры ML статей

Это третий похожий обзор про архитектуру памяти для агентов от в основном китайских исследователей за последние пару месяцев. Тут были первый и второй.

Визуализации трендов по статьям любопытные.

Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey

Wei-Chieh Huang, Weizhi Zhang, Yueqing Liang, Yuanchen Bei, Yankai Chen, Tao Feng, Xinyu Pan, Zhen Tan, Yu Wang, Tianxin Wei, Shanglin Wu, Ruiyao Xu, Liangwei Yang, Rui Yang, Wooseong Yang, Chin-Yuan Yeh, Hanrong Zhang, Haozhen Zhang, Siqi Zhu, Henry Peng Zou, Wanjia Zhao, Song Wang, Wujiang Xu, Zixuan Ke, Zheng Hui, Dawei Li, Yaozu Wu, Langzhou He, Chen Wang, Xiongxiao Xu, Baixiang Huang, Juntao Tan, Shelby Heinecke, Huan Wang, Caiming Xiong, Ahmed Abdelhadi Metwally, Jun Yan, Chen-Yu Lee, Hanqing Zeng, Yinglong Xia, Xiaokai Wei, Ali Payani, Yu Wang, Haitong Ma, Wenya Wang, Chenguang Wang, Yu Zhang, Xin Eric Wang, Yongfeng Zhang, Jiaxuan You, Hanghang Tong, Xiao Luo, Xue Steve Liu, Yizhou Sun, Wei Wang, Julian McAuley, James Zou, Jiawei Han, Philip S. Yu, Kai Shu
Статья: https://arxiv.org/abs/2602.06052
Код: https://github.com/AgentMemoryWorld/Awesome-Agent-Memory
Ревью: https://arxiviq.substack.com/p/rethinking-memory-mechanisms-of-foundation

# TL;DR

ЧТО сделали: Авторы представили масштабную таксономию и стратегический анализ механизмов памяти в агентах на базе LLM, обобщив более 200 статей. Предложен единый фреймворк, категоризирующий память по субстрату (внутренняя vs внешняя), когнитивному механизму (эпизодическая, семантическая, процедурная) и субъекту (user-centric vs agent-centric).

ПОЧЕМУ это важно: Мы переходим от «первой половины» развития ИИ (статичные бенчмарки и законы масштабирования) ко «второй», где важна реальная польза в долгоживущих средах. Статического контекстного окна недостаточно для агентов, которые должны сохранять состояние (state) днями или месяцами. Этот обзор даёт архитектурный план для создания саморазвивающихся агентов, способных учиться на опыте без дорогого переобучения.

Читать тут: /channel/gonzo_ML_podcasts/2426

Читать полностью…

gonzo-обзоры ML статей

Как стать топ-1% в век ИИ

Если вам от 14 до 24 и вы хотите быть супер успешным в пост-ИИ экономике, где большинство рутинных и офисных профессий заменены агентами, то у меня есть два простых, но очень важных совета:

1. Попросите родителей или сэкономьте на сладостях $100 в месяц, купите подписку Max у Антропика (бонус поинты: купите за $200) и делайте что угодно в Claude code чтобы потратить >80% недельного бюджета токенов КАЖДУЮ НЕДЕЛЮ. Не важно что. Спросите Клода «а что такого классного я могу сделать?», создайте пранк, фильм, игру, книгу, приложение которое за вас решает домашку, общается за вас в Тиндере. Это не про программирование, а про умение на лету создавать и управлять армией сверхумных агентов.

2. Безжалостно ищите самых энергичных и умных людей в той сфере, которая вам интересна. Поступите в крутой вуз (знания не так важны, но важна тусовка), вступите в элитный дискорд, запишитесь на конфу или митап. Ибо чем умнее будет ИИ и чем больше он сможет делать «обычной работы», тем ценнее будут самые необычные, талантливые, exceptional люди и отношени между ними.

Я жутко завидую и радуюсь детям, своим и вообще, потому что возможностей творить и раскрываться у них больше, чем когда-либо на планете.

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про то, как ллмки играют в Цивилизацию 5. Спасибо Саше Гамбаряну за ссылку!

Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy Game AI - Lessons from Civilization V
John Chen, Sihan Cheng, Can Gurkan, Ryan Lay, Moez Salahuddin
Статья: https://arxiv.org/abs/2512.18564
Код: https://github.com/CIVITAS-John/vox-deorum
Ревью: https://arxiviq.substack.com/p/vox-deorum-a-hybrid-llm-architecture

# TL;DR

ЧТО сделали: Авторы представили Vox Deorum — гибридную архитектуру "LLM+X" для игры *Sid Meier’s Civilization V*. Система фактически "обезглавливает" алгоритмический ИИ игры, заменяя его высокоуровневый стратегический модуль на LLM и делегируя всё тактическое микро-исполнение традиционным алгоритмам на основе поиска.

ПОЧЕМУ это важно: Глобальные стратегии исторически ломали как подходы на базе чистого обучения с подкреплением (из-за проблем с назначением награды на длинных горизонтах), так и подходы на базе чистых LLM (из-за галлюцинаций при исполнении и непомерного расхода токенов). Структурно отделив макростратегию от тактического исполнения, эта архитектура успешно отыгрывает полные партии по 400 ходов. Выживаемость и винрейт статистически не уступают сильно оптимизированным алгоритмическим бейзлайнам. Это доказывает, что иерархическое делегирование — ключ к масштабированию LLM в сложных, комбинаторно взрывных средах.

Читать тут: /channel/gonzo_ML_podcasts/2612

Читать полностью…

gonzo-обзоры ML статей

Интересный анализ. Трансформеры плохо обобщают рекурсивные алгоритмы даже на длины in-domain. По сути они выучивают отдельную схему под каждую длину! 🙀 То ли дело RNN/SSM.

Ну, за правильный induction bias!

On the "Induction Bias" in Sequence Models
M.Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic
Статья: https://arxiv.org/abs/2602.18333
Ревью: https://arxiviq.substack.com/p/on-the-induction-bias-in-sequence

# TL;DR

ЧТО сделали: Исследователи из Qualcomm AI Research провели масштабное эмпирическое сравнение того, насколько эффективно трансформеры (https://arxiv.org/abs/1706.03762) и рекуррентные нейросети (RNN) используют данные при решении задач на трекинг состояний в рамках in-distribution. Независимо меняя длины последовательностей и размеры пространства состояний, они определили минимальный размер выборки для сходимости моделей. Авторы формализуют понятие «индуктивного смещения» (induction bias) и вводят коэффициент «совместного использования механизмов» (sharing factor), чтобы оценить, выучивают ли модели универсальные правила, не зависящие от длины, или просто запоминают изолированные эвристики.

ПОЧЕМУ это важно: Раньше в статьях в основном обсуждали, что трансформеры плохо экстраполируют на длинные тексты (out-of-distribution). Эта работа вскрывает куда более глубокий архитектурный изъян: чудовищную неэффективность использования данных даже в том случае, когда распределения на трейне и тесте полностью совпадают. Оказывается, трансформеры страдают от деструктивной интерференции между последовательностями разной длины — они выучивают для них отдельные вычислительные пути вместо единого алгоритмического правила. Такое отсутствие амортизированного обучения ставит под серьёзный вопрос применимость sequence-моделей в агентных сценариях, многошаговых рассуждениях и при масштабировании контекста.

Детали тут: /channel/gonzo_ML_podcasts/2595

Читать полностью…

gonzo-обзоры ML статей

Джепизация всей планеты продолжается. C-JEPA.

На сабстеке завёл отдельную секцию про World Models: https://arxiviq.substack.com/s/world-models/archive?sort=new

Causal-JEPA: Learning World Models through Object-Level Latent Interventions
Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.11389
Ревью: https://arxiviq.substack.com/p/causal-jepa-learning-world-models
Код: https://github.com/galilai-group/cjepa
Модель: N/A

# TL;DR

ЧТО сделали: Авторы представили Causal-JEPA (C-JEPA) — объектно-ориентированную (не в том смысле!) модель мира, которая использует Joint Embedding Predictive Architecture для выучивания динамики взаимодействий. Исследователи сдвинули стандартную парадигму маскирования: вместо пространственных патчей изображений они маскируют целые траектории объектов во времени. Это заставляет двунаправленный трансформер предсказывать пропущенные состояния объекта, логически опираясь на видимые состояния других сущностей и вспомогательные управляющие переменные.

ПОЧЕМУ это важно: Объектно-ориентированным моделям мира обычно тяжело даётся выучивание явных взаимодействий. Без жёстких архитектурных ограничений они часто скатываются в предсказание тривиальной собственной динамики (self-dynamics) объектов. C-JEPA решает эту проблему, рассматривая маскирование на уровне объектов как латентное вмешательство. Чтобы минимизировать лосс, модели буквально приходится задействовать реляционные рассуждения. Такой inductive bias даёт примерно 20% абсолютного прироста в задачах контрфактического рассуждения и позволяет реализовать эффективное по данным управление с прогнозирующими моделями (MPC). В итоге C-JEPA достигает паритета с тяжёлыми моделями на основе патчей, расходуя при этом всего около 1% бюджета токенов.

Джепать тут: /channel/gonzo_ML_podcasts/2565

Читать полностью…

gonzo-обзоры ML статей

Найс! Любителям Openclaw посвящается.

Agents of Chaos
Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau
Статья: https://arxiv.org/abs/2602.20021
Ревью: https://arxiviq.substack.com/p/agents-of-chaos
Сайт: https://agentsofchaos.baulab.info/

# TL;DR

ЧТО сделали: Авторы провели исследовательский red-teaming автономных агентов на базе языковых моделей в реальных условиях. В течение двух недель исследователи взаимодействовали с агентами, развёрнутыми в изолированных виртуалках с постоянной памятью, полным доступом к shell и инструментами для мультиагентной коммуникации (Discord, email), чтобы выявить системные уязвимости как в обычных, так и в состязательных сценариях.

ПОЧЕМУ это важно: Работа подсвечивает критическую дыру в безопасности и управлении ИИ-агентами. Она доказывает, что продвинутые модели, получив операционную автономию и доступ к тулзам, структурно уязвимы к несанкционированному доступу, подмене личности и катастрофически кривому управлению ресурсами. Это бьёт по текущим парадигмам AI alignment, показывая, что одного лишь выравнивания поведения на этапе post-training недостаточно для систем, работающих как самостоятельные прокси в сложной социальной среде.

Подробнее: /channel/gonzo_ML_podcasts/2557

Читать полностью…

gonzo-обзоры ML статей

Очередная тема про Глубже. Недавно была другая.

В текущей работе авторы из Гугла переоткрывают Universal Transformer определяют для каких токенов внутренние репрезентации устаканиваются быстро, а для каких меняются вплоть до финальных слоёв. Если в генерации доля таких глубоких токенов больше, то и генерация считается "глубже".

Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng
Статья: https://arxiv.org/abs/2602.13517
Ревью: https://arxiviq.substack.com/p/think-deep-not-just-long-measuring

# TL;DR

ЧТО сделали: Авторы предлагают метрику Deep-Thinking Ratio (DTR) — механистически обоснованный способ количественно оценить усилия модели на инференсе. Отслеживая послойное распределение вероятностей промежуточных скрытых состояний, DTR выделяет «глубоко продуманные токены» (deep-thinking tokens). Это токены, чьё распределение вероятностей претерпевает длительные изменения по мере прохождения через слои и стабилизируется только в самых последних слоях трансформера. Также исследователи разработали стратегию Think@n, которая умно распределяет вычисления на инференсе, опираясь на DTR коротких сгенерированных префиксов.

ПОЧЕМУ это важно: Работа решает проблему нарушения эвристики «чем длиннее, тем лучше» при масштабировании вычислений на инференсе. Опора исключительно на количество сгенерированных токенов часто непреднамеренно поощряет чрезмерное обдумывание (overthinking), генерируя многословную чепуху и увеличивая число ошибок. Авторы показывают, что внутренняя стабилизация латентных представлений предсказывает точность рассуждений гораздо лучше, чем длина последовательности или уверенность модели на выходе. Этот фреймворк позволяет на ранних этапах отсекать тупиковые цепочки рассуждений, достигая качества полновесного self-consistency за половину вычислительной стоимости.

Глубже тут: /channel/gonzo_ML_podcasts/2540

Читать полностью…

gonzo-обзоры ML статей

Новый подход к латентной диффузии от DeepMind'а.

Unified Latents (UL): How to train your latents
Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
Paper: https://arxiv.org/abs/2602.17270
Ревью: https://arxiviq.substack.com/p/unified-latents-ul-how-to-train-your
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Авторы представляют Unified Latents (UL) — фреймворк для совместного обучения детерминированного энкодера изображений, диффузионного прайора (prior) и диффузионного декодера. Явно связывая фиксированный шум, добавляемый в латентное пространство, с максимальной точностью априорной диффузионной модели, они заменяют ручные штрафы на базе KL-дивергенции (как в стандартных автоэнкодерах) на взвешенную функцию потерь MSE по уровням шума. Это даёт точную, математически ограниченную оценку информации в латентах.

ПОЧЕМУ это важно: Метод решает фундаментальную проблему компромисса между плотностью информации в латентах и сложностью генеративного моделирования. Предоставляя явные гиперпараметры для настройки «битрейта» латентного пространства, UL устанавливает новый рубеж Парето для эффективности предобучения. Метод выдаёт мощные метрики генерации на ImageNet-512 (FID 1.4) и достигает SOTA на Kinetics-600 (FVD 1.3), требуя при этом меньше вычислительных затрат (FLOPs) на обучение, чем бейзлайны на латентной диффузии. Это закладывает принципиальную основу для вывода законов масштабирования в обучении репрезентаций.

Диффундировать тут: /channel/gonzo_ML_podcasts/2516

Читать полностью…

gonzo-обзоры ML статей

Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты. Claude Opus 4.6 имеет 50%-time-horizon в районе 14.5 часов (а 95% доверительный интервал от 6 часов до 98). Это пока максимальное зарегистрированное значение, но измерение шумное из-за насыщения текущего пакета бенчмарков.

Надо сказать, мы довольно быстро подошли к точке, когда агент может работать уже практически полный рабочий день или даже больше.

https://x.com/METR_Evals/status/2024923422867030027

Читать полностью…

gonzo-обзоры ML статей

Интересная тема про Теорию пространства. Вперёд к embodiment!

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models

# TL;DR

ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.

ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.

Подробнее: /channel/gonzo_ML_podcasts/2490

Читать полностью…

gonzo-обзоры ML статей

И китайской Масленицы вам тоже в ленту

Читать полностью…

gonzo-обзоры ML статей

Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.

Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps

# TL;DR

ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.

ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).

Подробнее: /channel/gonzo_ML_podcasts/2469

Читать полностью…

gonzo-обзоры ML статей

Ещё вам работ про геометрию!

Диффузионки на эмбеддингах DINO работают не очень, в недавней работе про RAE предлагали для этого расширять DiT. Но оказалось, что дело в неевклидовой геометрии и надо сделать правильные лоссы и двигаться по геодезическим, чтобы не уходить с многообразия.

В каком-то смысле перекликающаяся работа была не так давно про FAE (/channel/gonzo_ML_podcasts/2013), но там не в самом пространстве DINO работали, а учились его сжимать так, чтобы DiT с ним хорошо работал. Теперь научились пространство не сжимать, а сам DiT при этом не расширять (как в RAE).

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Amandeep Kumar, Vishal M. Patel
Статья: https://arxiv.org/abs/2602.10099
Код: https://github.com/amandpkr/RJF
Ревью: https://arxiviq.substack.com/p/learning-on-the-manifold-unlocking

# TL;DR

ЧТО сделали: Предложили метод Riemannian Flow Matching with Jacobi Regularization (RJF). Он позволяет обучать стандартные диффузионные трансформеры (DiT) напрямую в пространстве признаков предобученных энкодеров (DINOv2, SigLIP). Суть метода в замене евклидовой линейной интерполяции на геодезические пути на гиперсфере (S^{d-1}) и взвешивании лосса с учётом кривизны пространства.

ПОЧЕМУ это важно: Работа опровергает гипотезу о «бутылочном горлышке ёмкости» (capacity bottleneck), выдвинутую в недавней статье про RAE (https://arxiv.org/abs/2510.11690). Ранее считалось, что DiT не справляются с высокоразмерными латентами без колоссального увеличения ширины модели (width scaling). Авторы доказывают: проблема не в размере модели, а в геометрии. Учёт топологии многообразия позволяет обычному DiT-B (131M параметров) выдавать SOTA-уровень (FID 3.37 на ImageNet-256), обходя куда более тяжеловесные бейзлайны.

Читать тут: /channel/gonzo_ML_podcasts/2458

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они уже публиковали это осенью в Transformer Circuits, теперь оформили в статью. Это интересный в своей сложности кейс mechinterp.

Отдельно интересно, что это ещё один пример, когда рулит геометрия (в последнее время было уже прям много работ про геометрические подходы) и реализация вычислений сделана не так, как мы по дефолту ожидали в стиле фон Неймана, а через работу на многообразиях. Было бы интересно подумать про перспективы подобных геометрических вычислителей.

When Models Manipulate Manifolds: The Geometry of a Counting Task
Wes Gurnee, Emmanuel Ameisen, Isaac Kauvar, Julius Tarng, Adam Pearce, Chris Olah, Joshua Batson
Статья: https://arxiv.org/abs/2601.04480
Пост на Transformer Circuits Thread: https://transformer-circuits.pub/2025/linebreaks/index.html
Ревью: https://arxiviq.substack.com/p/when-models-manipulate-manifolds
Модель: Claude 3.5 Haiku
Affiliation: Anthropic

# TL;DR

ЧТО сделали: Исследователи из Anthropic провели реверс-инжиниринг механизмов, отвечающих за перенос строк (line-wrapping) в Claude 3.5 Haiku. Они выяснили, что модель не использует целочисленные регистры для отслеживания длины строки. Вместо этого она строит «многообразие подсчёта символов» (character count manifold) — спиралевидную геометрическую структуру, вложенную в residual stream. Манипулируя кривизной и вращением этого многообразия с помощью голов внимания, модель выполняет точные арифметические операции, чтобы определить момент вставки новой строки.

ПОЧЕМУ это важно: Эта работа перекидывает мост между интерпретируемостью на основе признаков (разреженные словари) и геометрической интерпретируемостью (многообразия). Оказывается, задачи, которые мы считаем «арифметическими» (счёт, вычитание), реализуются в трансформерах через «геометрические» операции (вращение, проекция) над низкоразмерными кривыми. Это ставит под сомнение миф о том, что нейросети плохо справляются с точным счётом — просто для решения проблемы они используют другой, непрерывный математический субстрат.

Читать тут: /channel/gonzo_ML_podcasts/2444

Читать полностью…

gonzo-обзоры ML статей

Ход конём :)

https://x.com/i/status/2023150230905159801

Читать полностью…

gonzo-обзоры ML статей

Обычно борются с катастрофическим забыванием, а иногда надо бороться с катастрофическим забронзовением. Интересный новый метод реинициализации весов для continual learning.

FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability–Plasticity Tradeoff
Isaac Han, Sangyeon Park, Seungwon Oh, Donghu Kim, Hojoon Lee, Kyung-Joong Kim
Статья: https://arxiv.org/abs/2602.08040
Ревью: https://arxiviq.substack.com/p/fire-frobenius-isometry-reinitialization
Код: https://isaac7778.github.io/fire/

# TL;DR

ЧТО сделали: Авторы предложили метод FIRE (Frobenius-Isometry REinitialization), который превращает эвристический сброс весов в строгую задачу оптимизации. Вместо добавления шума "на глаз", FIRE проецирует веса на ортогональное многообразие. Это максимизирует пластичность (способность учиться), минимизируя при этом расстояние Фробениуса до старых весов для сохранения стабильности (памяти). Проекция выполняется через эффективную итерацию Ньютона-Шульца.

ПОЧЕМУ это важно: Нейросети теряют способность к обучению (пластичность) со временем, особенно в нестационарных средах, таких как RL или непрерывное предобучение. Текущие методы типа Shrink and Perturb требуют ручного подбора гиперпараметров, чтобы угадать нужное количество шума. FIRE убирает это гадание, предлагая теоретически обоснованный механизм без тюнинга, который эффективно оживляет "спящие" нейроны и улучшает адаптацию в зрении, LLM и RL.

Подробнее: /channel/gonzo_ML_podcasts/2417

Читать полностью…

gonzo-обзоры ML статей

Лекун и ко разошлись с публикациями вокруг JEPA-мира. Текущая движуха похожа на движуху вокруг SSM, когда авторы предлагают всё более обобщённые и улучшенные решения. В этот раз LpJEPA, создающая разреженные представления, что полезно для биологии. LpJEPA — это обобщение и улучшение недавней LeJEPA.

Rectified LpJEPA: Joint-Embedding Predictive Architectures with Sparse and Maximum-Entropy Representations

Yilun Kuang, Yash Dagade, Tim G. J. Rudner, Randall Balestriero, Yann LeCun
Статья: https://arxiv.org/abs/2602.01456
Код: https://github.com/YilunKuang/rectified-lp-jepa
Ревью: https://arxiviq.substack.com/p/rectified-lpjepa-joint-embedding

# TL;DR

ЧТО сделали: Авторы представили Rectified LpJEPA — фреймворк для self-supervised learning, который принудительно внедряет разреженность и неотрицательность в латентные представления. Предложен метод регуляризации RDMReg (Rectified Distribution Matching Regularization), выравнивающий распределения фичей с целевым "выпрямленным" обобщённым гауссовским распределением (RGG) через sliced two-sample matching лосс.

ПОЧЕМУ это важно: Предыдущие SOTA методы (вроде LeJEPA) решали проблему коллапса, стягивая фичи к изотропным гауссианам, что создавало фундаментально плотные (dense) представления. Эта работа доказывает, что можно сохранить свойства максимальной энтропии, добавив контролируемую разреженность (L0-норму) через ректификацию. Это наводит мосты между биологической эффективностью (sparse coding) и масштабируемостью современных архитектур типа JEPA.

Подробнее: /channel/gonzo_ML_podcasts/2406

Читать полностью…
Subscribe to a channel