gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Развитие подхода DiLoCo (Distributed Low-Communication) обучения, теперь асинхронная версия! Можно не блокироваться на поломанных воркеров в большом обучении, и даже миксовать разнородное железо. Может и не строго нужны будут огромные ДЦ с тоннами одинаковых чипов.

Decoupled DiLoCo for Resilient Distributed Pre-training
Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Nova Fallen, Ayush Dubey, Ionel Gog, Josef Dean, Blake Woodworth, Zachary Garrett, Nate Keating, Jenny Bishop, Henry Prior, Edouard Yvinec, Arthur Szlam, Marc’Aurelio Ranzato, Jeff Dean
Статья: https://arxiv.org/abs/2604.21428
Ревью: https://arxiviq.substack.com/p/decoupled-diloco-for-resilient-distributed

# TL;DR

ЧТО сделали: Авторы представили Decoupled DiLoCo — фреймворк для распределённого предобучения, который заменяет жёстко связанную парадигму Single Program Multiple Data (SPMD) на полностью асинхронную архитектуру. Вычисления делятся на независимых воркеров (learners), которые передают фрагменты параметров центральному синхронизатору (syncer) на CPU. Использование минимального кворума и адаптивного grace-окна позволяет изолировать аппаратные сбои и избавиться от барьеров жёсткой синхронизации.

ПОЧЕМУ это важно: Традиционный подход SPMD фундаментально ограничен надёжностью железа на больших масштабах: отказ одного чипа или случайная задержка сети могут застопорить весь гигантский кластер. Исследователи подошли к предобучению как к задаче распределённых систем, поставив доступность (availability) и устойчивость к разделению (partition tolerance) выше строгой консистентности параметров. Это обеспечивает нулевой глобальный даунтайм и почти оптимальный goodput даже при массовых сбоях оборудования. Метод позволяет использовать географически распределённое, разнородное и прерываемое (preemptible) железо без падения итогового качества моделей.

Для практиков: Работа даёт готовый рецепт, как преодолеть лимиты надёжности оборудования при обучении передовых моделей. Позволяя частям кластера работать независимо и синхронизироваться асинхронно, можно собирать вместе более дешёвые, менее надёжные или физически удалённые чипы (и даже миксовать разные поколения железа) для обучения масштабных LLM без простоев.

Координироваться тут: /channel/gonzo_ML_podcasts/3401

Читать полностью…

gonzo-обзоры ML статей

Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое упущение в классических сетях с адаптивными вычислениями. Трансформерному блоку с общими весами фундаментально необходимы выделенные токены памяти в качестве вычислительного "черновика" (scratchpad). Кроме того, стандартная нулевая или положительная инициализация bias в адаптивном роутинге часто загоняет модель в локальный минимум с ранней остановкой (shallow-halt). Просто инвертировав этот bias, чтобы заставить модель "думать" дольше на ранних этапах обучения, авторы радикально стабилизировали процесс и разблокировали специализированные механизмы внимания. Подход провалидирован на заведомо сложном бенчмарке.

Входить в рекурсию тут: /channel/gonzo_ML_podcasts/3387

Читать полностью…

gonzo-обзоры ML статей

Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили.

Scaling Self-Play with Self-Guidance
Luke Bailey, Kaiyue Wen, Kefan Dong, Tatsunori Hashimoto, Tengyu Ma
Статья: https://arxiv.org/abs/2604.20209v1
Код: https://github.com/LukeBailey181/sgs
Датасет: https://huggingface.co/datasets/LukeBailey181Pub/D_3k
Ревью: https://arxiviq.substack.com/p/scaling-self-play-with-self-guidance

# TL;DR

ЧТО сделали:
Исследователи из Стэнфорда представили Self-Guided Self-Play (SGS) — алгоритм асимметричного self-play для формального доказательства теорем. Он решает частую проблему хакинга награды (reward hacking) при автоматической генерации curriculum'а, добавляя в цикл языковую модель Guide (Гид). Этот Гид явно оценивает синтетические задачи на математическую элегантность и релевантность, не давая генератору скатываться в вырожденные выходы.

ПОЧЕМУ это важно:
Поддержание self-play на длительных горизонтах вычислений — главное "бутылочное горлышко" автономного обучения с подкреплением (RL). Систематически курируя синтетические данные, этот фреймворк позволяет модели на 7B параметров обойти бейзлайн на 671B. Это доказывает, что качественная фильтрация данных — критическое требование для масштабирования инференса в RL.

Для практиков:
Для команд, разрабатывающих следующее поколение рассуждающих моделей (reasoning models), вывод однозначен: оптимизация механизма фильтрации данных внутри цикла self-play так же важна, как и оптимизация самого алгоритма RL. Обычная максимизация сложности задач больше не работает.

Гид тут: /channel/gonzo_ML_podcasts/3374

Читать полностью…

gonzo-обзоры ML статей

И чтоб два раза не вставать, ещё одна интересная работа про теорию DL

There Will Be a Scientific Theory of Deep Learning
Jamie Simon, Daniel Kunin, Alexander Atanasov, Enric Boix-Adserà, Blake Bordelon, Jeremy Cohen, Nikhil Ghosh, Florentin Guth, Arthur Jacot, Mason Kamb, Dhruva Karkada, Eric J. Michaud, Berkan Ottlik, Joseph Turnbull
Статья: https://arxiv.org/abs/2604.21691v1
Ревью: https://arxiviq.substack.com/p/there-will-be-a-scientific-theory
Сайт: https://learningmechanics.pub/

# TL;DR

ЧТО сделали: Большая коалиция исследователей из разных институтов синтезировала пять растущих направлений теоретических работ и предложила концепцию «механики обучения» (learning mechanics). Суть в том, что глубокое обучение переходит от эмпирического искусства к предсказательной науке, управляемой разрешимыми макроскопическими законами, по аналогии со статистической и классической механикой в физике.

ПОЧЕМУ это важно: Опираться исключительно на метод проб и ошибок при масштабировании перепараметризованных моделей стало экономически и вычислительно невозможно. Если подвести под динамику нейросетей предсказательную математическую базу, мы получим zero-shot перенос гиперпараметров между масштабами, сможем математически (а не эмпирически) прогнозировать экспоненты законов масштабирования (scaling laws) и заложим строгий фундамент для AI alignment и безопасности.

Для практиков: Математическое понимание динамики обучения, такое как подход Maximal Update Parameterization (μP), позволяет настраивать гиперпараметры на дешёвых прокси-моделях и без изменений переносить их на огромные production архитектуры, навсегда избавляя от дорогого поиска по сетке.

Погружаться тут: /channel/gonzo_ML_podcasts/3349

Читать полностью…

gonzo-обзоры ML статей

Разбор архитектуры свежего DeepSeek-V4.

Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10% KV-кэша от объёмов V3.2.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-AI
Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Code: https://github.com/deepseek-ai/DeepGEMM
Model: https://huggingface.co/collections/deepseek-ai/deepseek-v4
Review: https://arxiviq.substack.com/p/deepseek-v4-towards-highly-efficient

# TL;DR

ЧТО сделали: DeepSeek-AI представили серию моделей DeepSeek-V4 (включая Pro-версию на 1.6T параметров и Flash на 284B). Авторы разработали новую гибридную архитектуру внимания, внедрили residual connections, ограниченные многообразием, и оптимизатор Muon, чтобы нативно и эффективно поддерживать окно контекста в миллион токенов.

ПОЧЕМУ это важно: Квадратичная сложность механизма внимания и линейный рост KV-кэша долгое время оставались главным боттлнеком для длинного контекста. За счёт уменьшения размера KV-кэша на 90% и снижения FLOPs на инференсе на 73% (на отметке в миллион токенов по сравнению с предыдущим поколением), новая архитектура делает масштабный кросс-документный анализ, онлайн-обучение и постоянные агентские рассуждения вычислительно и экономически оправданными.

Для практиков: DeepSeek-V4 объединяет недавние достижения в масштабировании MoE, обучении с подкреплением и системной инженерии. Для инженеров и стратегов выход V4 доказывает: барьер для работы с экстремально длинным контекстом больше не упирается исключительно в железо. Его можно планомерно преодолеть с помощью алгоритмической компрессии, специализированных ядер и строгой post-training дистилляции, достигая при этом качества на уровне топовых проприетарных моделей.

Глубоко искать здесь: /channel/gonzo_ML_podcasts/3324

Читать полностью…

gonzo-обзоры ML статей

Свежак от DeepSeek

https://github.com/deepseek-ai/TileKernels

Tile Kernels

Optimized GPU kernels for LLM operations, built with TileLang. TileLang is a domain-specific language for expressing high-performance GPU kernels in Python, featuring easy migration, agile development, and automatic optimization.

Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios. However, they do not represent best practices and we are actively working on improving the code quality and documentation.

Читать полностью…

gonzo-обзоры ML статей

Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever.

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals

# TL;DR

ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.

ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.

Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.

Раскладывать тензоры тут: /channel/gonzo_ML_podcasts/3301

Читать полностью…

gonzo-обзоры ML статей

И ещё про развитие ветки Universal Transformer (см.вчерашнее /channel/gonzo_ML/5206).

Интересно про трёхфазовый гроккинг:

На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение.


Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao
Статья: https://arxiv.org/abs/2604.07822v1
Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize
Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit

# TL;DR

ЧТО сделали:
Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении.

ПОЧЕМУ это важно:
Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто "думая" дольше.

Для практиков:
Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях.

В глубины: /channel/gonzo_ML_podcasts/3279

Читать полностью…

gonzo-обзоры ML статей

Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и побеждает!

A Mechanistic Analysis of Looped Reasoning Language Models
Hugh Blayney, Álvaro Arroyo, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Michael Bronstein, Xiaowen Dong
Статья: https://arxiv.org/abs/2604.11791v1
Код: https://github.com/TrelisResearch/nanochat/tree/recursive
Ревью: https://arxiviq.substack.com/p/a-mechanistic-analysis-of-looped

# TL;DR

ЧТО сделали: Авторы провели глубокий механистический анализ зацикленных (looped) языковых моделей — архитектур, которые масштабируют вычисления на инференсе за счёт многократного применения одних и тех же блоков трансформера. Они теоретически доказали и эмпирически подтвердили, что такие циклические сети естественно сходятся к чётким неподвижным точкам (fixed points) в латентном пространстве, самоорганизуясь в предсказуемые стадии вывода, которые зеркально отражают функциональную глубину стандартных feedforward моделей.

ПОЧЕМУ это важно: Пока индустрия активно движется к адаптивным способностям рассуждения через масштабирование вычислений на инференсе, критически важно понимать внутреннюю динамику рекуррентной глубины. Показав, что зацикленные модели отвязывают функциональные стадии рассуждения от физического количества параметров, исследователи дали теоретическую базу для создания крайне параметрически эффективных рассуждающих моделей. Это позволяет избежать типичной для рекуррентных сетей деградации в виде чрезмерного обдумывания (overthinking).

Для практиков: Предсказуемая природа циклических стадий вывода открывает путь к мощным оптимизациям. Например, можно агрессивно разреживать внимание на стабильных стадиях перемешивания контекста или сжимать промежуточные репрезентации в циклических MLP, получая сильные модели без раздувания вычислительного бюджета и памяти.

Думать мысли тут: /channel/gonzo_ML_podcasts/3251

Читать полностью…

gonzo-обзоры ML статей

Третий эксперимент про регенерацию — если повредить финальное состояние модели (пять разных способов), восстановит ли модель его? Ящерица, неожиданно, делает это неплохо, хотя и не обучалась на такое. Но поскольку модель обучалась расти из начального одноклеточного состояния, то в целом что-то такое можно ожидать, как можно ожидать и других развитий типа неконтролируемого роста. Чтобы явно помочь модели взрастить регенеративные способности, можно расширить бассейн аттрактора для конечного состояния, то есть увеличить пространство конфигураций, из которых модель достигает своё целевое состояние. Для этого на каждом шаге обучения несколько отобранных примеров повреждаются случайным кружком, затирающим место попадания. Итого, в каждом отобранном батче пример с худшим лоссом заменяется на начальное состояние, а три с самым лучшим лоссом повреждаются рандомными кружочками. В итоге получается модель с лучшими способностями к регенерации, даже к повреждениям, которые модель не встречала.

Последний четвёртый эксперимент включает вращения перцептивного поля. К операторам Собеля применяются вращения на заданный угол, и это приводит к генерации повёрнутой картинки, без какого-либо переобучения модели. В пиксельных моделях это не так тривиально и ожидаемо как в непрерывных, поскольку одиночный пиксель при повороте может легко перекрыть уже несколько пикселей. Но по факту всё работает за пределами того, что модель встречала в обучении.

Что прикольно, обучили также НКА для планарии (один из любимых примеров регенерации, который тот же Майкл Левин постоянно использует). После разрезания выращенной из одной клетки цифровой планарии на три части и разделения их, из каждой вырастает новая цифровая планария. Выглядит круто.

В последнее время появилось сколько-то работ, продолжающих эту линию, попробую их разобрать.

Читать полностью…

gonzo-обзоры ML статей

Growing Neural Cellular Automata
Alexander Mordvintsev, Ettore Randazzo, Eyvind Niklasson, Michael Levin
Интерактивная статья + ссылки на код: https://distill.pub/2020/growing-ca/
Ноутбук для экспериментов: тут

Эту старую, 2020 года, тему про нейронные клеточные автоматы (НКА) мы многократно упоминали, но нормально так и не разбирали. А стоило бы, особенно после темы про вычислительную жизнь. Авторы прекрасны, Майкла Левина вы и так знаете, вероятно и Александра Мордвинцева тоже, но если нет, то за его работами я рекомендую следить, у него много прекрасных тем про самоорганизацию, искусственную жизнь и рядом, а ещё, в частности, он соавтор старого доброго DeepDream. Для многих текущая волна генеративного искусства началась именно с него. Предыдущая волна, кажется, была про фракталы.

В этой работе есть большой заход на тему про морфогенез и развитие организма из одной клетки, а также регенерацию. Она про то, что где-то там существуют правила на уровне клетки, каждая клетка принимает локальные решения исходя из своего окружения, и сообща они создают достаточно сложный “организм”.

КА

Всеми любимые клеточные автоматы (КА), включая игру Жизнь (мы когда-то разбирали один из свежих результатов с доказательством, что она омнипериодическая), работают просто. Есть набор клеток или ячеек, например на плоскости. В каждой выполняется одно и то же правило. Например, для игры жизнь это следующие правила:

1. Рождение: В пустой (мертвой) клетке зарождается жизнь (клетка становится живой), если у нее ровно три живых соседа.

2. Выживание: Живая клетка остается живой, если у нее есть два или три живых соседа.

3. Смерть (Одиночество/Перенаселение): Живая клетка умирает, если у нее меньше двух живых соседей (одиночество) или больше трех (перенаселение).

Эти весьма простые правила приводят к потрясающе красивым результатам. В этой симуляции появляются стабильные элементы, есть движущиеся глайдеры, есть много разных других прекрасных конфигураций. Умельцы собирают на глайдерах даже компьютеры, подробнее тут.

Про клеточные автоматы Вольфрам написал целую книгу, можно например почитать вот здесь. Есть также варианты перехода из дискретного пространства в непрерывное — мне кажется, самая известная здесь Lenia. Да и вообще область как таковая довольно древняя — сам Тьюринг экспериментировал с паттернами морфогенеза.

НКА

Обычно в КА играют в режиме, что сначала задают правила, а затем смотрят, к каким результатам они приводят. К КА можно подойти и с обратной стороны — задаться результатом (например, фенотипом организма) и найти (или выучить) КА, создающий его.

Для того, чтобы задать КА надо решить, какие состояния у него могут быть (обычно это набор дискретных значений, но могут быть и непрерывные), а также задать функцию обновления состояния. Если взять непрерывные значения и позволить функции обновления быть дифференцируемой, то, вы уже понимаете, это можно выучить градиентным спуском, как нейросети.

Например (переходим к деталям работы), можно задать состояние каждой клетки набором из 16 вещественных чисел (каналов в терминах изображений). Первые три задают RGB компоненты цвета, и ещё одно — альфу (которая равна нулю для фона и 1 для объекта). Эта альфа будет определять “живость” клетки: α>0.1 означает, что клетка жива и её соседи тоже. Все остальные клетки мертвы и их состояние устанавливается в ноль. Итого, клетки с α>0.1 — зрелые, а их соседи с α≤0.1 — растущие (и могут стать зрелыми, когда значение превысит 0.1). Остальные каналы не имеют предопределённого значения, правило обновления само решит как их использовать. Их можно интерпретировать как концентрацию различных веществ, электрические потенциалы или иные сигнальные механизмы, используемые клетками.

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про эволюцию без внешних верификаторов. Есть интересные инсайты про то, что большая модель для генерации разнообразия + маленькая для последующей фильтрации лучше, чем наоборот. И ещё мне понравилось про кастомное ядро для vLLM.

Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution
Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu
Paper: https://arxiv.org/abs/2604.07725
Code: https://github.com/squeeze-evolve/squeeze-evolve
Project Page: https://squeeze-evolve.github.io
Review: https://arxiviq.substack.com/p/squeeze-evolve-unified-multi-model

# TL;DR

ЧТО сделали: Авторы представляют SQUEEZE EVOLVE — фреймворк для оркестрации мультимодельного эволюционного инференса без опоры на внешние верификаторы. Используя встроенную в модель уверенность (confidence) и сигналы семантического разнообразия, система динамически маршрутизирует задачи рекомбинации кандидатов: либо в тяжёлые и умные модели, либо в компактные и дешёвые, в зависимости от необходимой маржинальной пользы.

ПОЧЕМУ это важно: Масштабирование вычислений на инференсе — проверенный путь к улучшению способностей к рассуждению. Однако запускать продвинутый эволюционный поиск исключительно на самых мощных моделях экономически нецелесообразно, к тому же это часто приводит к «коллапсу разнообразия», снижающему качество. SQUEEZE EVOLVE решает обе проблемы одновременно. Фреймворк устанавливает новую границу соотношения цены и качества: снижает затраты на API до трёх раз и увеличивает пропускную способность системы почти в 10 раз, при этом сохраняя или превосходя качество значительно более дорогих одномодельных подходов.

Для практиков: Для архитектур, масштабирующих задачи на рассуждение или научные открытия, однообразные запросы к тяжёлым моделям становятся устаревшей стратегией. Статья показывает, что качество инициализации определяет итоговую точность. Поэтому использование большой модели строго для первичной генерации и адаптивная маршрутизация последующих шагов улучшения в более дешёвые модели (на основе их внутренней уверенности) даёт огромный прирост эффективности. В сочетании с кастомными модификациями движка инференса эта техника оркестрации делает масштабный verifier-free инференс практически применимым в условиях жёстких ограничений по задержкам и бюджету.

Эволюционировать тут: /channel/gonzo_ML_podcasts/3223

Читать полностью…

gonzo-обзоры ML статей

Про многоэтапную верификацию CUA (Computer Use Agent).

The Art of Building Verifiers for Computer Use Agents
Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah
Статья: https://arxiv.org/abs/2604.06240v1
Код: https://github.com/microsoft/fara
Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for

# TL;DR

ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов.

ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов.

Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств.

Верифицировать здесь: /channel/gonzo_ML_podcasts/3204

Читать полностью…

gonzo-обзоры ML статей

Большой обзор про латентное пространство!

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Zhucun Xue, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2604.02029v1
Репа: https://github.com/YU-deep/Awesome-Latent-Space
Ревью: https://arxiviq.substack.com/p/the-latent-space-foundation-evolution

# TL;DR

ЧТО сделали: Авторы представили подробную таксономию и формальный обзор подходов на базе "латентного пространства" в языковых моделях. Работа переосмысляет непрерывные внутренние состояния: из скрытых деталей реализации они превращаются в первичный, машинно-нативный вычислительный субстрат. Исследователи систематизировали сотни разрозненных статей в двумерную структуру, сопоставляющую механистический дизайн (архитектуру, репрезентации, вычисления, оптимизацию) с функциональными возможностями (рассуждения, планирование, восприятие, память, embodied-задачи и коллаборация).

ПОЧЕМУ это важно: Современные авторегрессионные модели упираются в серьёзные структурные ограничения из-за избыточности языка, боттлнека дискретизации и высоких затрат на последовательное декодирование. Перенос вычислений в непрерывное латентное многообразие позволяет кодировать суперпозиции путей рассуждения, сохранять высокоточную мультимодальную информацию и обмениваться данными между агентами без семантических потерь. Это фундаментально меняет архитектурные рамки базовых моделей следующего поколения.

Для практиков: Переход на непрерывные репрезентации означает скорый отказ от явного промпт-инжиниринга промежуточных шагов (CoT) в пользу работы со скрытыми состояниями. Дискретный текст останется лишь интерфейсом ввода-вывода, тогда как основная тяжёлая работа (поиск, симуляция, память) уйдёт в латентное пространство. Потребуется новый инструментарий для мониторинга, отладки и AI alignment таких состояний, так как для человека они полностью непрозрачны.

Латенты тут: /channel/gonzo_ML_podcasts/3185

Читать полностью…

gonzo-обзоры ML статей

Вышел свежий 2026 AI Index Report

https://hai.stanford.edu/ai-index/2026-ai-index-report

Читать полностью…

gonzo-обзоры ML статей

"Кладбище домашних животных", Стивен Кинк

Читать полностью…

gonzo-обзоры ML статей

Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer (https://arxiv.org/abs/2006.11527).

Как вы могли заметить, мне очень нравится архитектура Universal Transformer (UT), я много про неё пишу и даже порывался собрать на ней модель-замену TRM, но не успел (/channel/gonzo_ML/4437). Мысли всё равно не оставляли и раз не получилось собрать URM, то почему бы не сделать тогда следующий логичный шаг, добавив память. Что я и сделал. Идея Universal Transformer + Memory мне нравится особенно, потому что это ещё ближе к полноценному компьютеру (хотя и обычный UT по идее уже Turing-complete).

Подход сработал. Если взять однослойный UT, добавить динамическую рекурсию этого слоя с механизмом Adaptive Computation Time (ACT), который динамически решает, когда останавливать обработку конкретного токена, и начать учить его решать сложные судоку, то без памяти это не удаётся. Зато если добавить хотя бы 8 токенов памяти, то дело идёт существенно лучше! У голов внимания при этом явно наблюдается разная специализация по части работы с памятью. Интересно.

Параллельно удалось разобраться с проблемой большой зависимости от случайного сида. На некоторых сидах обучение происходило (среди чемпионов, что забавно, был сид 42), на некоторых -- нет. Оказалось, что сильная зависимость от сида была проблемой архитектуры, а вернее инициализации роутера в механизме ACT. При правильной инициализации обучение случается на всех протестированных сидах.

Код для экспериментов я оформил в виде JAX кода, используя свежее NNX API, гонял на TPU v6e. Код выложил на гитхаб. Постарался сделать его минималистичным, чтобы любой мог начать экспериментировать. Также мне лично нравится практика записывать и сохранять ADR (Architecture Decision Records), в которых отражены важные архитектурные решения с объяснением, почему они были приняты и какие были альтернативы. Это и в классическом SWE очень полезная вещь, и в ML-research мне так же всегда её не хватало -- успеваешь перепробовать много разных подходов, откинув множество разных веток, и если это не логгировать, то легко потеряться. А кроме того, для всех, кто впоследствии будет работать с этим кодом, код превращается из замороженного артефакта в живую летопись, объясняющую почему код именно такой какой есть. Наверное, бывают репозитории с экспериментами, где это понятно и очевидно, но мне в целом такие не попадались. Надо задать тренд! А ещё это хорошее подспорье для агентов, помогающих в рисёче.

Такие дела. Читайте, критикуйте, пробуйте, дополняйте.

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
Grigory Sapunov
Статья: https://arxiv.org/abs/2604.21999v2
Код: https://github.com/che-shr-cat/utm-jax
Ревью: https://arxiviq.substack.com/p/universal-transformers-need-memory
Пост про подход: https://gonzoml.substack.com/p/why-i-keep-coming-back-to-universal

# TL;DR

ЧТО сделали: Исследователи (1 шт.) представили одноблочный Universal Transformer, дополненный явными токенами памяти и модифицированным механизмом Adaptive Computation Time (ACT). Они показали, что устранение неочевидной ловушки при инициализации роутера позволяет этой компактной модели решать сложные комбинаторные задачи на рассуждение (наподобие судоку из датасета Sudoku-Extreme (https://huggingface.co/datasets/sapientinc/sudoku-extreme)), при условии наличия достаточного объёма внутренней памяти.

ПОЧЕМУ это важно: Работа предоставляет эмпирические доказательства того, что одной лишь глубины архитектуры — даже если она динамически адаптируется — недостаточно для сложных рассуждений без постоянного, выделенного пространства состояний. Авторы диагностировали и исправили давнюю проблему с инициализацией ACT. Это открывает более стабильный путь к созданию эффективных по числу параметров рекурсивных моделей "Системы 2", способных масштабировать вычисления на инференсе.

Читать полностью…

gonzo-обзоры ML статей

Продолжим выходные интересной теории

The Linear Centroids Hypothesis: How Deep Network Features Represent Data
Thomas Walker, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk
Статья: https://arxiv.org/abs/2604.11962
Код: https://github.com/ThomasWalker1/LinearCentroidsHypothesis
Ревью: https://arxiviq.substack.com/p/the-linear-centroids-hypothesis-how

# TL;DR

ЧТО сделали: Авторы предлагают гипотезу линейных центроидов (Linear Centroids Hypothesis, LCH) — новый фреймворк для механистической интерпретируемости. Вместо анализа фичей как линейных направлений в латентном пространстве активаций модели, LCH ищет фичи, опираясь на геометрию входного пространства сети. Вычисляя «центроиды» — векторные репрезентации, полученные через якобиан входа-выхода и описывающие функциональное отображение локальной области сети, исследователи предлагают более строгий метод для извлечения фичей, поиска внутренних схем (circuits) и построения карт салиентности.

ПОЧЕМУ это важно: Текущие подходы к интерпретируемости сильно опираются на гипотезу линейного представления. Её слабое место — склонность находить «паразитные» (spurious) фичи: модель их выучивает, но фактически не использует в своём графе вычислений. LCH привязывает поиск фичей к реальной функциональной геометрии модели.

Для практиков: Метод работает как drop-in замена латентным активациям. Он даёт гораздо более чистые словари фичей, радикально повышает устойчивость линейных пробов на out-of-distribution данных и естественным образом связывает конкретные фичи с функциональными схемами на разных слоях сети.

Изучать репрезентации тут: /channel/gonzo_ML_podcasts/3361

Читать полностью…

gonzo-обзоры ML статей

Интересное на подумать.

Generalization at the Edge of Stability
Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal
Статья: https://arxiv.org/abs/2604.19740v1
Сайт: https://circle-group.github.io/research/GATES
Ревью: https://arxiviq.substack.com/p/generalization-at-the-edge-of-stability

# TL;DR

ЧТО сделали: Авторы предложили теоретический фреймворк, моделирующий стохастическую оптимизацию как случайную динамическую систему, сходящуюся к фрактальному пуллбэк-аттрактору (pullback attractor). Они вывели новую меру сложности — размерность резкости (Sharpness Dimension), которая опирается на полный спектр гессиана для оценки наихудшей ошибки обобщения нейросетей, обучающихся в локально нестабильных режимах.

ПОЧЕМУ это важно: Современное масштабное обучение часто загоняет модели в осциллирующий, хаотичный режим Edge of Stability, где классические теории «плоских минимумов» (flat minima) перестают работать. Математически доказав, что обобщающая способность сети контролируется размерностью фрактального подмножества меньшей размерности, а не общим количеством параметров, эта работа строго объясняет, почему массивно перепараметризованные сети хорошо обобщают без необходимости сходиться к единой стабильной точке.

Для практиков: Для исследователей и инженеров, масштабирующих передовые модели, статья диктует смену парадигмы: от анализа изолированных чекпоинтов к изучению аттракторов — множеств состояний, которые алгоритмы исследуют в долгосрочной перспективе. Оценка ландшафта лосса по одной метрике (например, по старшему собственному значению гессиана) — ненадёжный предиктор качества модели. Вместо этого вычисление Sharpness Dimension, балансирующего как расширяющиеся, так и сжимающиеся направления ландшафта, даёт надёжный предиктор обобщающей способности и объясняет внезапные скачки в обучении вроде гроккинга.

Грокать тут: /channel/gonzo_ML_podcasts/3338

Читать полностью…

gonzo-обзоры ML статей

Про важность харнесса на примере Клод Кода:

https://www.anthropic.com/engineering/april-23-postmortem

Продолжение темы /channel/gonzo_ML/5209

Читать полностью…

gonzo-обзоры ML статей

Шажок на пути к автоматической науке

GIANTS: Generative Insight Anticipation from Scientific Literature
Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman
Статья: https://arxiv.org/abs/2604.09793
Код: https://github.com/joyheyueya/giants
Модель: https://huggingface.co/giants2026
Ревью: https://arxiviq.substack.com/p/giants-generative-insight-anticipation

# TL;DR

ЧТО сделали: Авторы формализуют задачу "предвосхищения инсайтов" (insight anticipation) — предсказания главной новизны будущей научной статьи исключительно по саммари её основополагающих "родительских" работ. Для этого собрали датасет GiantsBench на 17 тысяч примеров и обучили GIANTS-4B, языковую модель на 4 миллиарда параметров, прошедшую файнтюнинг с помощью обучения с подкреплением (RL), где в качестве награды выступает семантическая близость.

ПОЧЕМУ это важно: Работа показывает, что способность синтезировать научную литературу не масштабируется линейно только за счёт размера модели. Изолировав этап концептуального синтеза от шума открытой генерации идей, авторы доказывают, что специализированное RL на небольших open-weight моделях сильно превосходит огромные SOTA-модели в целенаправленных задачах на рассуждение.

Для практиков: Для тех, кто разрабатывает агентов для научных открытий или проверяемые RAG-системы, предложенный пайплайн (ограниченный контекст + GRPO с семантическим ревордом) — это отличный шаблон. Он заставляет небольшую модель делать строгий концептуальный синтез, а не галлюцинировать абстрактными идеями.

Подробнее тут: /channel/gonzo_ML_podcasts/3311

Читать полностью…

gonzo-обзоры ML статей

Давно мы про табличный ML не писали!

Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for

# TL;DR

ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.

ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.

Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.

Углубляться тут: /channel/gonzo_ML_podcasts/3290

Читать полностью…

gonzo-обзоры ML статей

Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший код Клод кода и анализируют как устроен агент такого рода. Интересное чтиво. Харнесс, всюду харнесс. Больше 98% кода это оркестрационная обвязка вокруг интеллекта.

Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems
Jiacheng Liu, Xiaohan Zhao, Xinyi Shang, Zhiqiang Shen
Статья: https://arxiv.org/abs/2604.14228v1
Репа: https://github.com/VILA-Lab/Dive-into-Claude-Code
Ревью: https://arxiviq.substack.com/p/dive-into-claude-code-the-design

# TL;DR

ЧТО сделали: Авторы провели реверс-инжиниринг исходного кода на TypeScript агента Claude Code (v2.1.88) от Anthropic. Цель — разобрать архитектурный дизайн промышленных AI-агентов для написания кода. Исследователи вытащили наружу базовые механизмы системы и показали сложную инфраструктуру из семи компонентов, которая жёстко отделяет способности LLM к рассуждению от операционной обвязки, отвечающей за безопасность, контекст и память.

ПОЧЕМУ это важно: Работа эмпирически доказывает: по мере того как базовые способности фундаментальных моделей выравниваются, главным конкурентным преимуществом надёжных автономных систем становится именно детерминированная инженерная обвязка вокруг модели. Оказалось, что 98.4% кодовой базы промышленного агента — это операционная инфраструктура, а не логика принятия решений ИИ. Это заставляет переосмыслить подход к разработке и уйти от хрупкой оркестрации на базе промптов в сторону надёжных архитектур, напоминающих операционные системы.

Для практиков: Для техлидов и ИИ-исследователей этот анализ служит детальным чертежом того, как топовые лаборатории разворачивают автономные инструменты в продакшене. Статья подробно разбирает, как Claude Code справляется с давлением бесконечно растущего контекста через пятиуровневый пайплайн сжатия и обеспечивает безопасность с помощью жёсткого гейта разрешений (deny-first). Важно отметить, что работа подсвечивает и структурные трейды: хотя мощная инфраструктура ускоряет разработку в моменте, ограниченное окно контекста и изолированные субагенты создают риск того, что со временем общая связность кодовой базы и понимание проекта человеком будут деградировать.

Погружаться сюда: /channel/gonzo_ML_podcasts/3260

Удобнее наверно читать в виде страницы, где картинки вставлены к месту: https://arxiviq.substack.com/p/dive-into-claude-code-the-design

Читать полностью…

gonzo-обзоры ML статей

Начало холивара детектед! 😁

https://x.com/fchollet/status/2045524796298101077

Читать полностью…

gonzo-обзоры ML статей

Правило обновления можно воспринимать как геном клетки и он у всех клеток будет общим. Правило работает (и клетки живут) на двумерном поле, по факту на тензоре размерности [height, width, 16]. Мы хотим, чтобы на клетку влияло только близкое окружение, так что у правила будет небольшое рецептивное поле, скажем 3x3, с самой клеткой в середине (как и у игры жизнь). Это можно задать операцией свёртки.

Каждая клетка “смотрит” на своё ближайшее окружение (через свёртку размером 3x3). Авторы не стали делать эту свёртку обучаемой, а решили выбрать заранее заданные фильтры Собеля, горизонтальный и вертикальный. Они используются для выделения границ, то есть по сути считают производные по направлениям. Авторы исходили из логики, что внутри организмов клетки часто ориентируются на химические градиенты для направления развития организма. Итого, на вход правила обновления отправляются 48 чисел: 16 чисел оригинального состояния, и ещё два раза по 16 — градиенты по горизонтали и вертикали.

Далее обучаемая часть, которая генерит дельту, добавляемую к исходному состоянию клетки. Обучаемая часть задана двуслойной сетью: dense-128 -> relu -> dense-16 (на выходе relu нет, так как дельты могут быть и отрицательными). Инициализировано так, чтобы на старте обучения давало ноль и ничего не делало с исходным состоянием.

Есть также стохастическое обновление. Обычные KA обновляют все клетки одномоментно, как будто есть глобальная синхронизация. В живых организмах её нет и авторы ослабляют требование синхронизации, считая, что обновления клеток происходят через случайные интервалы времени. Для эмуляции этого процесса генерируется бинарная маска (по превышению рандомом 0.5) и обновляются только клетки с установленной маской. Можно также рассматривать это как поклеточный дропаут.

Для моделирования процесса роста организма надо чтобы на обновление влияли только клетки организма (не фона), поэтому все каналы пустых клеток (определяемых по альфа-каналу) устанавливаются в ноль. Пустой считается клетка без зрелых (α>0.1) соседей в окружении 3x3.

В целом простые правила. Далее, чтобы обучить на какую-то задачу надо задать лосс-функцию.

Эксперименты

В первом эксперименте обучают КА расти, то есть достигать целевого изображения, стартуя с одной клетки (seed). Эта клетка инициализирована единицами во всех каналах кроме RGB, затем к ней многократно применяется правило обновления (количество применений сэмплится из диапазона [64, 96]). В конце такого шага считается L2-лосс между целевым изображением и RGBA каналами, по сигналу от этого лосса с помощью градиентного спуска происходит обучение двух dense слоёв в правиле обновления.

Правила выучиваются генерить заданные паттерны, но будучи запущенными дольше, чем было во время обучения, начинают портить изображения. Хочется сделать так, что когда изображение создано, оно остаётся. Сделать его своеобразным аттрактором, про это второй эксперимент.

По идее для этого можно обучать на большем количестве итераций, периодически применяя лосс. Это требует заметно больше памяти и, понятное дело, дольше. Авторы пошли другим путём. Они стартуют с пула начальных состояний (например, 1024 штуки). Из него сэмплится батч для шага обучения (32 сэмпла), но один сэмпл в батче всегда заменяется на оригинальное начальное состояние, чтобы предотвратить катастрофическое забывание. После шага обучения проитерированные сэмплы заменяют в пуле оригинальные. Это помогает добавить стабильности. Также помогает замена на начальное значение не случайного сэмпла, а сэмпла с худшим лоссом.

Читать полностью…

gonzo-обзоры ML статей

"Думать надо, когда надо. А когда не надо, думать не надо."
-- Тони Роббинс

А вообще забавно, что в LLM появляются механизмы прерываний, как в своё время в процессорах.

Think Anywhere in Code Generation

Xue Jiang, Tianyu Zhang, Ge Li, Mengyang Liu, Taozhi Chen, Zhenhua Xu, Binhua Li, Wenpin Jiao, Zhi Jin, Yongbin Li, Yihong Dong
Статья: https://arxiv.org/abs/2603.29957v2
Код: https://github.com/jiangxxxue/Think-Anywhere
Ревью: https://arxiviq.substack.com/p/think-anywhere-in-code-generation

# TL;DR

ЧТО сделали: Исследователи из Пекинского университета и Tongyi Lab (Alibaba) представили THINK-ANYWHERE — новый механизм рассуждений, который позволяет LLM динамически ставить генерацию на паузу и запускать обдумывание на любом токене при написании кода. Это отход от доминирующей парадигмы, где модель генерирует единый, исчерпывающий блок размышлений строго до начала вывода кода.

ПОЧЕМУ это важно: Такой подход гораздо точнее имитирует мышление человека при программировании, когда проблемы и корнер-кейсы часто всплывают уже в процессе реализации. Запуская ризонинг именно в узких местах с высокой энтропией, модель бьёт SOTA по точности на бенчмарках кодогенерации и, что парадоксально, сокращает общее количество сгенерированных токенов, оптимизируя вычисления во время инференса.

Для практиков: Динамическое распределение токенов ризонинга позволяет снизить задержку при генерации и экономить бюджет токенов. Подход можно адаптировать под разные домены (отлично работает даже на математике), но для запуска потребуется качественный SFT-прогрев, чтобы научить базовую модель правильно использовать теги прерывания.

Думать тут: /channel/gonzo_ML_podcasts/3237
Не думать тут: /channel/gonzo_ML_podcasts/3250

Читать полностью…

gonzo-обзоры ML статей

Про спектральную математику оптимизатора Мюон. На подумать.

Muon Dynamics as a Spectral Wasserstein Flow
Gabriel Peyré
Статья: https://arxiv.org/abs/2604.04891
Код: https://github.com/gpeyre/spectral-wasserstein
Ревью: https://arxiviq.substack.com/p/muon-dynamics-as-a-spectral-wasserstein

# TL;DR

ЧТО сделали: Автор представляет семейство «спектральных расстояний Вассерштейна», параметризованных матричной нормой на положительно полуопределённых матрицах. Обобщая оптимальный транспорт через штрафование глобальной ковариации смещений, статья доказывает, что непрерывный предел оптимизатора Muon (https://kellerjordan.github.io/posts/muon/) — это точный градиентный поток в операторной норме этой геометрии.

ПОЧЕМУ это важно: Работа переводит спектрально нормализованные апдейты из разряда эмпирических эвристик в строгие геометрические принципы непрерывного времени. Это даёт математический фундамент для анализа стабильности, координации частиц и потенциальной глобальной сходимости современных матричных оптимизаторов, которыми сейчас обучают LLM.

Для практиков: Пока это строгая математическая база. Если вы используете Muon для обучения, теперь вы знаете, что он не просто делает ортогональную проекцию, а оптимально двигает веса в специальном неевклидовом пространстве. Это открывает путь к созданию новых, математически обоснованных вариантов оптимизаторов для больших моделей.

Вкуривать тут (я ещё не): /channel/gonzo_ML_podcasts/3216

Читать полностью…

gonzo-обзоры ML статей

Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta Magazine: “The AI Revolution in Math Has Arrived

Mathematical methods and human thought in the age of AI
Tanya Klowden, Terence Tao
Статья: https://arxiv.org/abs/2603.26524
Ревью: https://arxiviq.substack.com/p/mathematical-methods-and-human-thought

# TL;DR

ЧТО сделали: Авторы предлагают философский и стратегический фреймворк для интеграции ИИ в математически строгие пайплайны. Описан поэтапный переход от простой помощи на периферии к полноценному коллаборативному сосуществованию человека и машины.

ПОЧЕМУ это важно: По мере того как языковые и рассуждающие модели масштабируются, автоматизация интеллектуального труда опасно отрывается от базовых когнитивных процессов. Бесконтрольное внедрение ИИ грозит системным загрязнением данных («коллапс ИИ») и эпистемологической цикличностью.

Для практиков: Для безопасного использования ИИ в качестве интеллектуальной базы необходимы строгие барьеры формальной верификации. Это позволяет изолировать стохастические галлюцинации моделей и не принимать сгенерированный синтаксис за фактическую истину.

Искать истину тут: /channel/gonzo_ML_podcasts/3199

Читать полностью…

gonzo-обзоры ML статей

Вчера для deep research брали одного большого агента. Но по пять. А сегодня берут несколько маленьких. Но по три.

Memory Intelligence Agent
Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Статья: https://arxiv.org/abs/2604.04503v2
Ревью: https://arxiviq.substack.com/p/memory-intelligence-agent
Код: https://github.com/ECNU-SII/MIA
Модель: https://huggingface.co/LightningCreeper/MIA

# TL;DR

ЧТО сделали: Авторы предложили фреймворк Memory Intelligence Agent (MIA), который перестраивает ризонинг автономного агента в разделённую архитектуру Manager-Planner-Executor. Подход смещает фокус с простого извлечения фактов на выучивание процедурных стратегий поиска. Это достигается за счёт комбинации явного непараметрического буфера памяти и непрерывного обновления параметров модели через обучение с подкреплением прямо во время инференса (Test-Time Learning, TTL).

ПОЧЕМУ это важно: Исследователи эмпирически доказали, что умное управление памятью и стратегическая абстракция способны нивелировать разницу в качестве между маленькими и большими моделями. Использование 7B модели в роли исполнителя позволило превзойти 32B модель на 18%. MIA показывает, что выучивание самого "процесса" решения задачи вычислительно эффективнее и лучше масштабируется, чем простое расширение окна контекста или увеличение числа параметров.

Для практиков: Современные deep research агенты часто страдают от раздувания памяти и размытия внимания при обработке длинных историй выполнения. MIA решает эту проблему, сжимая сырые трейсы взаимодействия в высокоуровневые саммари рабочих процессов, которые затем используются для динамического обновления агента-планировщика через попеременное обучение с подкреплением. Для архитекторов ИИ-систем это сигнал к переходу на саморазвивающиеся архитектуры, где непрерывное обучение специфичным процедурам прямо на инференсе даёт больший профит, чем статический, перегруженный знаниями контекст.

Три агента тут: /channel/gonzo_ML_podcasts/3169

Читать полностью…

gonzo-обзоры ML статей

Структура свободного времени сильно изменилась за последние месяцы. Теперь есть миллион проектов, которые наконец можно не закапывать в списки на будущее, а делать агентами, и сейчас типовое время за компом выглядит так, что, например, в одном окне я проверяю и готовлю к публикации разбор очередной свежей статьи (сделанный агентами, конечно), в другом антигравити гоняет эксперименты на TPU, а ещё висят пара Клод кодов, куда я периодически захожу чтобы попушить другие проекты. На работе аналогично, пока идут звонки, Курсор или Клод код пишут код, что-то проверяют, готовят документацию или генерят репорты. Узкое место уже давно не код как таковой, а продуктовая проработка и другая осмысленная валидация. Во всём этом богатстве главный челлендж теперь -- находить достаточно непрерывного времени для глубокого обдумывания. Нормальное человеческое внимание -- очень редкий и дорогой ресурс.

Читать полностью…
Subscribe to a channel