23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
ИИ-исследователи всё более полного цикла.
ASI-Evolve: AI Accelerates AI
Weixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao, Pengfei Liu
Paper: https://arxiv.org/abs/2603.29640
Code: https://github.com/GAIR-NLP/ASI-Evolve
Review: https://arxiviq.substack.com/p/asi-evolve-ai-accelerates-ai
# TL;DR
ЧТО сделали: Авторы представили ASI-EVOLVE — агентный фреймворк, созданный для автоматизации дорогих и длительных исследовательских циклов, которые двигают вперёд фундаментальный прогресс в ИИ. Система реализует непрерывную петлю «обучение–дизайн–эксперимент–анализ», усиленную когнитивной базой из априорных человеческих знаний и отдельным модулем-анализатором. Этот анализатор умеет дистиллировать многомерные логи обучения в понятные причинно-следственные инсайты.
ПОЧЕМУ это важно: Хотя предыдущие эволюционные агенты преуспевали в узких алгоритмических задачах или автоматической генерации статей, этот фреймворк демонстрирует унифицированный и полностью автономный поиск сразу в трёх главных столпах современного ИИ: архитектурах моделей, курировании датасетов предобучения и алгоритмах обучения с подкреплением (RL). Успешно перекладывая бремя оптимизации с плеч исследователей на агентный пайплайн, работа создаёт прецедент для рекурсивного самосовершенствования ИИ с замкнутым циклом.
Для практиков: Для опытных специалистов и руководителей, управляющих масштабными исследованиями, ASI-EVOLVE представляет собой структурный сдвиг в подходе к разработке ИИ. Вместо ручной настройки механизмов внимания или формул функции потерь (лосса) в RL, можно развернуть этот фреймворк для автоматического прочёсывания огромных пространств гипотез. Используя семантический поиск по прошлой литературе и программный анализ логов, система уже нашла 105 новых архитектур линейного внимания, превосходящих устоявшиеся бейзлайны, вывела стратегии курирования данных, которые подняли MMLU более чем на 18 пунктов, и сформулировала новые правила обновления для RL. Это прямо указывает на ближайшее будущее, где роль человека сведётся не к инженерному решению задач, а к заданию правильных ограничений для автономного поиска.
Исследовать тут: /channel/gonzo_ML_podcasts/3157
Дорожная карта развития железа для ИИ на ближайшие 10 лет. Хотим ускорения в 1000 раз: 10x от инноваций в алгоритмах, 20x от архитектурных улучшений и утилизации кремния, и 5x от оркестрации на уровне системы.
AI+HW 2035: Shaping the Next Decade
Deming Chen, Jason Cong, Azalia Mirhoseini, Christos Kozyrakis, Subhasish Mitra, Jinjun Xiong, Cliff Young, Anima Anandkumar, Michael Littman, Aron Kirschen, Sophia Shao, Serge Leef, Naresh Shanbhag, Dejan Milojicic, Michael Schulte, Gert Cauwenberghs, Jerry M. Chow, Tri Dao, Kailash Gopalakrishnan, Richard Ho, Hoshik Kim, Kunle Olukotun, David Z. Pan, Mark Ren, Dan Roth, Aarti Singh, Yizhou Sun, Yusu Wang, Yann LeCun, and Ruchir Puri
Статья: https://arxiv.org/abs/2603.05225
Ревью: https://arxiviq.substack.com/p/aihw-2035-shaping-the-next-decade
# TL;DR
ЧТО сделали: Масштабный консорциум лидеров индустрии и академии составил комплексную 10-летнюю дорожную карту для объединения разработки ИИ-алгоритмов и железа. Цель — улучшить эффективность обучения и инференса в 1000 раз.
ПОЧЕМУ это важно: Экспоненциальное масштабирование foundation-моделей столкнулось с жёсткими физическими, температурными и инфраструктурными ограничениями. Энергия на перемещение данных теперь превышает энергию на сами вычисления, создавая суровую "стену памяти". Решить эту проблему математически и практически необходимо, чтобы глобальная нехватка энергии в дата-центрах не остановила прогресс ИИ.
Для практиков: Для стратегов по железу, проектировщиков архитектур и ML-исследователей эта дорожная карта — срочная директива. Она описывает переход от изолированной разработки, сфокусированной на вычислениях, к парадигме кросс-уровневого совместного проектирования (co-design). Требуя внедрения 3D-интеграции вычислений в памяти (CIM), алгоритмической устойчивости к шуму смешанных сигналов и использования ИИ для автоматизации проектирования электроники (EDA), статья намечает путь к устойчивому агентному ИИ. Такой ИИ будет способен эффективно работать везде: от гигаваттных облаков до милливаттных физических edge-устройств.
Ковать железо тут: /channel/gonzo_ML_podcasts/3148
Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки. Так, глядишь, и термодинамическое железо массово выстрелит!
Neural Computers
Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, 💪 Jürgen Schmidhuber
Paper: https://arxiv.org/abs/2604.06425
Code: https://github.com/metauto-ai/NeuralComputer
Blog: https://metauto.ai/neuralcomputer/index_eng.html
Review: https://arxiviq.substack.com/p/neural-computers
# TL;DR
ЧТО сделали:
Исследователи из Meta AI и KAUST предлагают новую архитектурную парадигму под названием нейрокомпьютер (Neural Computer, NC). Она объединяет вычисления, память и операции ввода-вывода в единое выученное скрытое состояние во время выполнения. Вместо того чтобы рассматривать ИИ как агента, который манипулирует внешней операционной системой, они встроили компьютер прямо в веса диффузионного трансформера (на базе Wan2.1). Идея проверена на двух прототипах: NC_{CLIGen} для работы с терминалом и NC_{GUIWorld} для графических интерфейсов десктопа.
ПОЧЕМУ это важно:
Работа намечает фундаментальный сдвиг от модульного стека железа и софта фон Неймана к единому «нейросетевому латентному стеку». Если этот тренд сохранится, будущие системы не будут программироваться явно кодом, а будут настраиваться дифференцируемым образом. Доказав, что базовые примитивы (например, выравнивание ввода-вывода и управление на коротких горизонтах) могут возникать исключительно из наблюдения за интерфейсными трейсами, авторы рисуют путь к полностью нейросетевым компьютерам (Completely Neural Computers, CNC), которые смогут заменить традиционные цифровые вычислительные платформы.
Для практиков:
Для техлидов и исследователей эта статья подсвечивает критическую развилку в дизайне ИИ-систем. Пока индустрия вливает огромные ресурсы в агентов, использующих внешние инструменты, эта работа предлагает альтернативу, где модель сама впитывает в себя среду исполнения. Подробные абляции показывают, что модели умеют очень точно рендерить интерфейсы и реагировать на ввод пользователя. Однако вскрывается и серьёзное ограничение: текущие реализации на базе видеомоделей — это великолепные рендереры, но пока ещё очень хрупкие рассуждающие модели при решении задач с нативной символьной логикой.
Рендерить тут: /channel/gonzo_ML_podcasts/3121
Иметь заалайненную "безопасную" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки. И да поможет нам всем Mythos здравый смысл и ответственный подход!
ClawSafety: "Safe" LLMs, Unsafe Agents
Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge
Paper: https://arxiv.org/abs/2604.01438
Code: https://weibowen555.github.io/ClawSafety/
Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents
# TL;DR
ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб).
ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть.
Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический "разрыв комплаенса", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке.
Эксплойтить тут: /channel/gonzo_ML_podcasts/3102
Зачем агентам нужна интуитивная физика.
Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/
# TL;DR
ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.
ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.
Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.
Получать интуицию тут: /channel/gonzo_ML_podcasts/3088
Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах, который работает неожиданно хорошо для кода. Есть над чем подумать.
Embarrassingly Simple Self-Distillation Improves Code Generation
Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
Статья: https://arxiv.org/abs/2604.01193v1
Репа: https://github.com/apple/ml-ssd
Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation
# TL;DR
ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя.
ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей.
Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма.
Самодистиллировать тут: /channel/gonzo_ML_podcasts/3075
Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда.
How Well Does Agent Development Reflect Real-World Work?
Zora Z. Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig
Статья: https://arxiv.org/abs/2603.01203
Код: https://github.com/zorazrw/ai4work-resources
Ревью: https://arxiviq.substack.com/p/how-well-does-agent-development-reflect
# TL;DR
ЧТО сделали: Авторы разработали систематический фреймворк для маппинга 72 342 задач из 43 бенчмарков для ИИ-агентов напрямую на рынок труда США. Используя профессиональные таксономии O*NET и данные Бюро статистики труда, они количественно оценили, какие именно сектора экономики и навыки реально представлены в текущих наборах для тестирования моделей.
ПОЧЕМУ это важно: Исследование подсвечивает огромный структурный перекос в разработке ИИ: мы агрессивно оптимизируем агентов под крошечный, узкоспециализированный срез экономики. Вводя единую метрику сложности задач и автономности агентов, статья даёт количественный ориентир для смещения фокуса с удобных для методологии задач на области с существенно бо́льшим социальным и экономическим импактом.
Для практиков: Для руководителей исследований и продуктовых стратегов, создающих general-purpose агентов, эта работа — критическая проверка реальностью. Текущие наборы для оценки подавляюще перекошены в сторону софтверной инженерии (которая составляет всего 7.6% занятости в США), при этом практически игнорируя высокооцифрованные и капиталоёмкие сектора вроде менеджмента и права. Кроме того, авторы вводят математически обоснованное определение автономности агента на основе иерархической сложности воркфлоу. Это позволяет командам строго определять границы возможностей вместо того, чтобы полагаться на бинарные метрики pass/fail на произвольных задачах.
Искать под фонарём здесь: /channel/gonzo_ML_podcasts/3049
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.
Transformers learn factored representations
Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers
Статья: https://arxiv.org/abs/2602.02385v1
Код: https://github.com/Astera-org/factored-reps
Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations
# TL;DR
ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream.
ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура.
Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения.
Выучивать модульные представления тут: /channel/gonzo_ML_podcasts/3026
Свежая интересная работа про биологические вычисления. Мы уже упоминали работу "The forest as a neutrino detector" (/channel/gonzo_ML/2735), текущая работа про лягушек тоже нацелена на помощь физике. Но это только начало! Ждём вытеснения GPU новыми биологическими BPU.
Mexican Burrowing Toads as gravitational wave detectors
Frederic V. Hessman, Christian Jooss
Paper: https://arxiv.org/abs/2603.29334
Review: https://arxiviq.substack.com/p/mexican-burrowing-toads-as-gravitational
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предлагают биофизический фреймворк, предполагающий, что мексиканская роющая жаба (*Rhinophrynus dorsalis*) способна детектировать космические гравитационные волны. Анализируя поразительное сходство между брачным криком жабы и формой сигнала (чирпом) слияния двойных чёрных дыр, они описывают «магнетронный рамановский лазерный механизм». В нём ферромагнитные материалы в нервной системе амфибии экспоненциально усиливают деформации пространства-времени, превращая их в детектируемые биологические сигналы.
ПОЧЕМУ это важно: Если биологические системы в ходе эволюции обрели чувствительность к ряби пространства-времени, использование массивов таких животных может стать невероятно дешёвой и масштабируемой альтернативой многомиллиардным оптическим интерферометрам. Работа расширяет границы биомимикрии, допуская, что природную магниторецепцию можно напрямую приспособить для нужд высокоточной астрофизики.
Для практиков: Создание контролируемых лабораторных установок с миллионами мексиканских роющих жаб в теории позволит собирать мощные биологические массивы. Они смогут определять точную направленность гравитационных событий через анализ коллективных фазовых сдвигов в акустических сигналах популяции.
Погрузиться в биологическую теледильдонику спинтронику тут: /channel/gonzo_ML_podcasts/3005
Seoul World Model — это прикольно!
Grounding World Simulation Models in a Real-World Metropolis
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, and Jin-Hwa Kim
Paper: https://arxiv.org/abs/2603.15583v1
Code: https://seoul-world-model.github.io
Ревью: https://arxiviq.substack.com/p/grounding-world-simulation-models
# TL;DR
ЧТО сделали: Представили Seoul World Model (SWM) — систему генерации видео масштаба целого города на 2 миллиарда параметров. В основе лежит Diffusion Transformer (DiT), который использует геоиндексированный поиск для привязки авторегрессионной генерации видео к реальным панорамам улиц Сеула, а не выдумывает окружение с нуля.
ПОЧЕМУ это важно: Существующие генеративные мировые модели не умеют сохранять географическую и топологическую достоверность на длинных временных горизонтах: стоит камере завернуть за угол, как модель начинает галлюцинировать новую улицу. Привязывая генерацию к реальным пространственным данным через RAG (retrieval-augmented generation), SWM перекидывает мост между статичными 3D-реконструкциями городов и динамической видеосимуляцией. Это даёт структурную базу для визуализаций в урбанистике и надёжной симуляции граничных случаев для беспилотных авто.
Для практиков: Эта работа знаменует важный переход от чисто параметрических, галлюцинирующих мировых моделей к физически обоснованным «цифровым двойникам». Исследователи внедрили механизм динамического извлечения будущих кадров, которые используются как якоря внимания. Это элегантно решает проблему дрейфа на длинных горизонтах, типичную для авторегрессионной генерации, и доказывает, что пространственный RAG — необходимая архитектура для масштабных и стабильных симуляций среды.
Кататься по Сеулу тут: /channel/gonzo_ML_podcasts/2977
Агенты переписывают описания тулов для других агентов. Всегда было непонятно, зачем для того, чтобы один компьютер пообщался с другим, нужно столько людей посередине.
Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use
Ruocheng Guo, Kaiwen Dong, Xiang Gao, Kamalika Das
Статья: https://arxiv.org/abs/2602.20426
Ревью: https://arxiviq.substack.com/p/learning-to-rewrite-tool-descriptions
# TL;DR
ЧТО сделали:
Авторы представили Trace-Free+ (https://arxiv.org/abs/2602.20426) — фреймворк, который переводит ориентированную на людей документацию к API в оптимизированные для агентов описания тулов. Используя curriculum learning, система файнтюнит языковую модель переходить от сценариев с богатыми трейсами исполнения к инференсу на чистом тексте. Это позволяет генерировать качественные описания для совершенно новых тулов без необходимости собирать логи реального исполнения на этапе инференса (test-time).
ПОЧЕМУ это важно:
Опираться на логи исполнения (traces) методом проб и ошибок во время инференса часто невозможно при холодном старте или в условиях строгих ограничений приватности. Перенося всю тяжесть оптимизации на этап офлайн-компиляции, этот метод радикально снижает затраты на инференс, сохраняет приватность данных и отлично скейлится, даже когда агенту нужно выбирать из пула в более чем 100 кандидатов.
Для практиков:
Для разработчиков составных AI-систем (compound AI systems) и агентов, обращающихся к внешним тулам, качество среды — в частности, интерфейсов этих тулов — так же критично, как и способность самого агента к рассуждению. Статья показывает, что можно систематически переводить хрупкую, написанную людьми документацию к API в надёжные схемы с явно заданными ограничениями без накладных расходов на эксплорейшен во время инференса. Это открывает путь к парадигме, где экосистемы API заранее компилируются в нативный для агентов формат.
Переписывать API тут: /channel/gonzo_ML_podcasts/2960
Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение реворда из текущих взаимодействий с OpenClaw-RL. Будет завтра про Memento-Skills. Гиперагенты в каком-то смысле тоже сюда. Теперь вот MetaClaw. Здесь сделали быструю доадаптацию скиллами и медленную дообучением лорой.
MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild
Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
Статья: https://arxiv.org/abs/2603.17187
Код: https://github.com/aiming-lab/MetaClaw
Ревью: https://arxiviq.substack.com/p/metaclaw-just-talk-an-agent-that
# TL;DR
ЧТО сделали:
Авторы предложили MetaClaw — фреймворк непрерывного мета-обучения (continual meta-learning), который позволяет задеплоенным LLM-агентам асинхронно эволюционировать в продакшене. Это достигается за счет комбинации двух циклов: безградиентной "быстрой адаптации", синтезирующей навыки на естественном языке из неудачных попыток, и "медленной адаптации" на основе градиентов, которая оппортунистически оптимизирует политику в периоды неактивности пользователя.
ПОЧЕМУ это важно:
Задеплоенные агенты неизбежно сталкиваются со сдвигом распределения задач. В результате статичные веса предобучения всё хуже справляются с реальными пользовательскими воркфлоу. MetaClaw предлагает системное решение этой проблемы нестационарности. Фреймворк вводит строгий механизм версионирования, разделяющий данные неудач (до адаптации) и данные успехов (после адаптации). Это предотвращает загрязнение памяти устаревшими ревордами, что обычно ломает непрерывное обучение с подкреплением у агентов.
Для практиков:
Для инженеров, поддерживающих автономных агентов в проде, постоянная деградация качества при изменении требований пользователей — главная головная боль. MetaClaw внедряет архитектуру с двумя временными шкалами. Сначала происходит немедленная корректировка поведения через динамическое добавление навыков в промпт. Затем следует отложенное асинхронное обновление весов через облачный файнтюнинг. Такой подход позволяет избежать даунтайма сервиса и при этом существенно повышает надёжность выполнения задач. Авторы доказывают, что координация дискретной семантической памяти с непрерывной оптимизацией параметров может сократить разрыв в возможностях между open-weights моделями и передовыми проприетарными API.
Метаоптимизировать агентов здесь: /channel/gonzo_ML_podcasts/2935
Лекун и ко предлагают архитектуру для автономного ИИ с тремя системами A, B, М.
Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science
Emmanuel Dupoux, Yann LeCun, Jitendra Malik
Статья: https://arxiv.org/abs/2603.15381
Ревью: https://arxiviq.substack.com/p/why-ai-systems-dont-learn-and-what
# TL;DR
ЧТО сделали: Авторы (среди которых Ян ЛеКун) предлагают масштабный концептуальный чертёж архитектуры для автономного обучения, отказываясь от статических пайплайнов. Они формализуют трёхкомпонентную систему, состоящую из Системы A (обучение через наблюдение), Системы B (обучение через действие) и жёстко закодированной Системы M (мета-контроллер). Весь комплекс оптимизируется через двухуровневый эволюционно-онтогенетический (Evo/Devo) фреймворк.
ПОЧЕМУ это важно: Современные фундаментальные модели сталкиваются с убывающей отдачей от масштабирования текстовых данных и оказываются невероятно хрупкими при сдвиге домена в физическом мире. Создание агентов, способных к автономному непрерывному обучению, становится критической необходимостью. Этот фреймворк даёт теоретически обоснованную дорожную карту, как вырваться из жёстких рамок ручного MLOps и строить системы, адаптирующиеся без вмешательства человека.
Для практиков: Работа смещает фокус с ручного курирования датасетов на дизайн богатых симуляционных сред для curriculum learning. Для реализации таких A-B-M архитектур потребуются сверхбыстрые алгоритмы внутреннего цикла (inner-loop learners) и новые безградиентные стратегии оптимизации для работы в процедурно генерируемых мирах.
Делай А, делай Б, делай М здесь: /channel/gonzo_ML_podcasts/2909
🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers
Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу
🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.
Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)
🌸Пайплайн
Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.
В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.
Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o
🌸Почему это работает: Абляционные исследования
Как должна выглядеть оптимальная система агента, чтобы поощрять открыты поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче.
🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.
🌸Учимся самоулучшаться
Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.
🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461
На LeJEPA построили модель мира LeWM.
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2603.19312
Review: https://arxiviq.substack.com/p/leworldmodel-stable-end-to-end-joint
Code: https://github.com/lucas-maes/le-wm
Model: https://drive.google.com/drive/folders/1r31os0d4-rR0mdHc7OlY_e5nh3XT4r4e
Website: https://le-wm.github.io
# TL;DR
ЧТО сделали: Авторы представляют LeWorldModel (LeWM) — end-to-end архитектуру JEPA, которая выучивает модель мира напрямую из сырых пикселей. Метод решает известную проблему коллапса репрезентаций с помощью лаконичного лосса (функции потерь) из двух слагаемых: стандартной среднеквадратичной ошибки для предсказания во времени и легко масштабируемой регуляризации, принуждающей латентные эмбеддинги распределяться по изотропному гауссиану.
ПОЧЕМУ это важно: Подход избавляет от хрупких архитектурных эвристик — таких как stop-gradients, экспоненциальные скользящие средние или многокомпонентные лоссы, — которые обычно нужны для стабилизации моделей мира в парадигме self-supervised learning. Сводя всю регуляризацию к одному гиперпараметру, фреймворк добивается стабильного обучения на одном GPU за несколько часов. Полученная модель способна планировать до 48 раз быстрее альтернатив на базе фундаментальных моделей, демонстрируя при этом zero-shot понимание интуитивной физики.
Для практиков: Для инженеров и исследователей, создающих масштабируемых агентов для робототехники или систем планирования, статья доказывает: стабильные модели мира не обязательно требуют предобученных визуальных энкодеров или сложной балансировки оптимизатора. Заставив распределения эмбеддингов математически соответствовать гауссовской топологии, модели могут органично выучивать структурированные, полезные для действий репрезентации прямо из офлайн-данных. Это снижает порог по вычислительным ресурсам для задач на физическое рассуждение.
Моделировать мир тут: /channel/gonzo_ML_podcasts/2895
В продолжение темы про Thrust2 и ThrustSSC.
Bloodhound LSR/SSC (https://en.wikipedia.org/wiki/Bloodhound_LSR) -- машина с реактивным двигателем Rolls-Royce Eurojet EJ200, призвана преодолеть порог в 1000 миль в час (это будет 1,609 км/ч). Пока достигли только 628 миль в час (1,011 км/ч). Выглядит уже почти как спейс шаттл в миниатюре (но всё равно немаленькая).
К сожалению, проект преследуют финансовые трудности, так что если среди читателей есть миллиардеры или миллионеры, то рассмотрите вариант помощи этому проекту! Зыкий же!
Сайт проекта: https://www.bloodhoundlsr.com/
В чате Шамиль Чанкаев привёл ещё разные интересные факты про эти скоростные машины, копирую тут с его разрешения:
Кстати, пару фанфактов:Читать полностью…
1. SSC в имени Thrust и Bloodhound означал Super Sonic Car. LSR же означает Land Speed Record.
2. Практически все заезды на максимальную скорость делаются в пустынях, на дне высохших озёр - это самое ровное и большое место, которое можно найти на суше.
3. При этом сильно влияет выбор пустыни - на разной высоте разная плотность воздуха => разное сопротивление, испытываемое болидом. Thrust и его предшественники тестировались в Неваде. Bloodhound хотели поставить рекорд где-то в ЮАР. Я помню, как в 2019-21 компания нанимала рабочих из ближайших деревень, чтобы они подготавливали трассу - убирали камни, размечали путь и т.д.
4. Из предыдущих пунктов - если присмотреться на фотографии колёс, можно заметить, что там у них нет резины - просто металлическая болванка. К концу заезда она стирается почти в 0.
5. Ну и насчёт двигателя - в 2019 году Ягуар выпускали топовый двигатель на 585 л.с. Так вот - для LSR этот двигатель выполнял роль компрессора - закачивал топливо в основной реактивный двигатель. А полная мощность превышала 100 000 л.с.
Вообще, это только одна категория рекордов - абсолютный рекорд на суше. Есть и другие категории - самый быстрый наземный транспорт с приводом на колёса, самый быстрый мотоцикл и т.д. Они не так расхайплены, но там тоже есть много чего интересного. Например, самый быстрый мотоцикл, поставивший рекорд в 2010 году, недавно продавался за ~200K$.
Ещё одна работа про анализ ИИ-автоматизации.
Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks
Matthias Mertens, Adam Kuzee, Brittany S. Harris, Harry Lyu, Wensu Li, Jonathan Rosenfeld, Meiri Anto, Martin Fleming, Neil Thompson
Paper: https://arxiv.org/abs/2604.01363
# TL;DR
ЧТО сделали: Исследователи из MIT FutureTech оценили 41 LLM на 3000+ реалистичных рабочих задачах, взятых из базы данных O*NET (другая недавняя работа на этой же базе). Они собрали более 17 000 двойных слепых оценок от профильных экспертов и смоделировали вероятность успеха ответов ИИ в зависимости от времени, которое потребовалось бы человеку на выполнение той же задачи.
ПОЧЕМУ это важно: Эта работа кардинально меняет наше представление о динамике автоматизации. ИИ не захватывает узкие ниши резко и внезапно (как «цунами»), пасуя перед всем остальным. Наоборот, модели улучшаются параллельно во всех текстовых профессиональных областях (как «прилив»). Такое плоское распределение роста производительности указывает на более предсказуемый и всеобъемлющий сценарий трансформации рынка труда.
Для практиков: Статья даёт отличную эмпирическую базу для стратегов и аналитиков. Передовые системы уже достигают 50% успешности на задачах, занимающих у человека 3–4 часа. Однако пологий наклон кривой успеха означает, что достижение идеальной надёжности без ошибок займёт значительно больше времени. Базовые способности к рассуждению стремительно растут, но главным барьером для реальных экономических сдвигов станет системная инженерия — та самая «последняя миля», необходимая для внедрения моделей в сложные корпоративные процессы.
Автоматизировать тут: /channel/gonzo_ML_podcasts/3136
Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе.
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang
Статья: https://arxiv.org/abs/2603.28458v3
Код: https://github.com/MuLabPKU/TransArch
Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing
# TL;DR
ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах.
ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации.
Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели.
Разреживать здесь: /channel/gonzo_ML_podcasts/3112
Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес инженерной мысли из музея транспорта в Ковентри. Рекордсмены среди самых быстрых машин, которые ещё ездят по земле.
Thrust2 (https://en.wikipedia.org/wiki/Thrust2) -- реактивная машина с турбиной от Роллс-Ройс, в 1983-м установила рекорд скорости в 1,047.49 км/ч. Рекорд продержался до 1997 года.
ThrustSSC (https://en.wikipedia.org/wiki/ThrustSSC) -- сверхзвуковой автомобиль уже с двумя турбореактивными двигателями, сместивший в 1997-м с пьедестала своего предшественника, Thrust2. Теперь уже со скоростью 1.02 Маха (1,228 км/ч). Вроде как единственный наземный автомобиль, преодолевший скорость звука.
Я думал они меньше по размеру.
Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.
Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization
# TL;DR
ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.
ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.
Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.
Эволюционировать свою обвязку здесь: /channel/gonzo_ML_podcasts/3061
Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный вход и оставить только текстовый промпт, она может считать, что картинка у неё на входе есть и вывести неплохой результат чисто из текста. Что очевидным образом может привести и к разным интересным проблемам.
Mirage: The Illusion of Visual Understanding
Mohammad Asadi, Jack W. O’Sullivan, Fang Cao, Tahoura Nedaee, Kamyar Fardi, Fei-Fei Li, Ehsan Adeli, Euan Ashley
Статья: https://arxiv.org/abs/2603.21687
Ревью: https://arxiviq.substack.com/p/mirage-the-illusion-of-visual-understanding
# TL;DR
ЧТО сделали: Авторы систематически исследовали «эффект миража» — феномен, когда мультимодальные модели генерируют детальные визуальные описания и цепочки рассуждений для изображений, которых им вообще не показывали. Для борьбы с этим предложили B-Clean — фреймворк пост-фильтрации бенчмарков, удаляющий вопросы, на которые модель может ответить, опираясь исключительно на текстовые эвристики.
ПОЧЕМУ это важно: Высокие скоры на стандартных бенчмарках принято считать доказательством сильного визуального понимания. Статья доказывает, что эти цифры сильно раздуты языковыми прайорами и структурными багами самих датасетов. В критичных сферах вроде медицины это создаёт режим тихого сбоя: если картинка не прогрузилась, модель просто выдумывает диагноз по тексту, уверенно имитируя визуальный анализ.
Для практиков: Обязательно тестируйте свои пайплайны с отключенной модальностью картинки. Для надёжного продакшена необходимо внедрять архитектурные проверки на этапе инференса, которые будут блокировать ответ, если он не подкреплён реальными доказательствами из изображения.
Смотреть миражи тут: /channel/gonzo_ML_podcasts/3037
А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей.
Efficient Universal Perception Encoder
Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra
Статья: https://arxiv.org/abs/2603.22387v1
Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder
# TL;DR
ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного "proxy-учителя" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента.
ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур.
Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера.
Сжимать и разжимать тут: /channel/gonzo_ML_podcasts/3014
Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки.
Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts
# TL;DR
ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.
ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.
Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.
Назначать экспертов здесь: /channel/gonzo_ML_podcasts/2991
Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую комментировать и обозревать -- только портить. Так что лучше почитайте оригинал. Ревью всё равно оставлю, забавно как там агенты от себя добавили формализма, по-своему прикольно вышло.
"Crucially, humans remain in the loop. Agent institutions are populated by both humans and AI agents in different roles and configurations. It’s not “either/or”, but “both/and”. The U.S. Founders would have recognized the logic [27]: no single concentration of intelligence, human or artificial, should regulate itself. Power must check power, and in a world of artificial agents, this means building conflict and oversight into the institutional architecture."
Agentic AI and the next intelligence explosion
James Evans, Benjamin Bratton, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2603.20639v1
# TL;DR
ЧТО сделали: Авторы предлагают фундаментальный сдвиг парадигмы в отношении траектории развития AGI. Они утверждают, что передовые модели (например, DeepSeek-R1 и QwQ-32B) масштабируются не за счёт монолитных вычислений, а через эмерджентные «общества мыслей» (результат их предыдущей работы /channel/gonzo_ML/4596). В статье представлена теоретическая и практическая основа для Институционального выравнивания (Institutional Alignment), предполагающая, что следующий скачок в возможностях ИИ опирается на многоагентную организационную социологию, а не на изолированное масштабирование параметров.
ПОЧЕМУ это важно: Такое переосмысление в корне меняет наш подход к масштабированию и безопасности ИИ. Авторы показывают, что оптимизационное давление неизбежно порождает внутренний многополярный диалог. Традиционное диадическое выравнивание (RLHF) структурно не способно управлять будущими системами. В будущем проектирование масштабируемых ИИ-экосистем потребует создания жёстких социологических шаблонов: ролей, иерархий и конституционных протоколов, зеркально отражающих человеческую бюрократическую и правовую инфраструктуру.
Для практиков: Для исследователей и техлидов погоня за единственной, всеведущей «моделью-богом» — это математический и исторический тупик. Данные от современных рассуждающих моделей показывают, что интеллект по своей природе — это множественное, реляционное свойство. Когда модели берутся за более сложные задачи, они спонтанно фрагментируются на многоагентные внутренние дебаты. Следовательно, следующий рубеж в исследованиях ИИ — это не просто наращивание FLOPs или размера датасета, а организационная инженерия. Нам нужно строить цифровые институты, определять роли и создавать гиперграфы разрешения конфликтов для координации триллионов взаимодействующих биологических и искусственных агентов.
Выравнивать институции тут: /channel/gonzo_ML_podcasts/2972
Продолжаем тему с постоянной адаптацией агентов. Сегодня обещанная эволюция скиллов.
Memento-Skills: Let Agents Design Agents
Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang
Статья: https://arxiv.org/abs/2603.18743
Код: https://github.com/Memento-Teams/Memento-Skills
Ревью: https://arxiviq.substack.com/p/memento-skills-let-agents-design
# TL;DR
ЧТО сделали:
Авторы представили Memento-Skills — систему агентов-дженералистов, которая автономно создаёт, мутирует и улучшает переиспользуемые специализированные навыки без изменения весов базовой модели. Используя структурированные markdown-файлы и код как внешнюю эпизодическую память, система применяет замкнутый цикл рефлексивного обучения (Read-Write Reflective Learning) для непрерывной оптимизации своей политики исполнения на основе обратной связи от среды.
ПОЧЕМУ это важно:
Традиционно обучение LLM во время инференса упирается в огромные вычислительные затраты на обновление параметров. Предложенный фреймворк даёт математически обоснованный путь к непрерывному обучению замороженных моделей. Он показывает, что самосовершенствующаяся персистентная память может принести радикальный прирост метрик (более 100% относительного улучшения на некоторых бенчмарках) при сохранении строгих гарантий сходимости.
Для практиков:
Для тех, кто масштабирует агентные пайплайны, опора на статические промпты или библиотеки few-shot примеров жёстко ограничивает способность агента адаптироваться к пограничным случаям (корнер-кейсам) со временем. Memento-Skills смещает парадигму с обучения параметров на эволюцию навыков в памяти. Оснастив замороженную LLM роутером на базе offline RL и механизмом перезаписи собственных логических файлов, система работает как senior-разработчик, непрерывно рефакторящий общую кодовую базу. Этот подход радикально повышает долю успешных выполнений в сложных задачах на рассуждение. Будущее надёжных агентов лежит в сложных, самоизменяющихся архитектурах памяти, а не только в увеличении размера базовых моделей.Рефакторить говнокод Эволюционировать скиллы тут: /channel/gonzo_ML_podcasts/2946
Про свою работу о Гиперагентах Таня уже написала, но не пропадать же картинке!
HyperAgents
Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina
Статья: https://arxiv.org/abs/2603.19461
Код: https://github.com/facebookresearch/Hyperagents
Ревью: https://arxiviq.substack.com/p/hyperagents
# TL;DR
ЧТО сделали: Авторы представили DGM-Hyperagents (DGM-H) — фреймворк, который объединяет агента, решающего задачу, и метаоптимизирующего агента в единую, полностью редактируемую самореферентную программу. Погрузив эту сущность в open-ended эволюционный поиск, система автономно переписывает как логику выполнения задачи, так и собственные внутренние механизмы самосовершенствования.
ПОЧЕМУ это важно: Предыдущие самообучающиеся системы упирались в созданные людьми алгоритмы метаобучения, которые плохо обобщаются на новые домены. DGM-H показывает, что агент может самостоятельно изобретать переносимые методы оптимизации (например, системы постоянной памяти и автоматическое выявление смещений). Это позволяет накапливать улучшения и метанавыки в совершенно разных областях, таких как дизайн ревордов для робототехники или проверка олимпиадных задач по математике.
Для практиков: Для тех, кто занимается AI alignment и open-endedness, эта статья от FAIR и академических соавторов даёт схему систем, которые не просто лучше решают задачу, а становятся лучше в самом процессе улучшения. Делая механизм метаобучения программируемым и редактируемым самим агентом, авторы обходят необходимость ручного дизайна эвристик для конкретных доменов. Это открывает надёжный путь к архитектурам с самоускоряющейся оптимизацией.
Гиперагенты тут: /channel/gonzo_ML_podcasts/2924
Безопасно ли это?
Совершенно нет! Но весело
Можно добавлять метрики и бенчмарки AI Safety прямо в multi-task objective, чтобы агент оптимизировался исходя из безопасности тоже.
Пожалуйста, применяйте HyperAgents в своих задачах, расширяйте применимость метода:
🟣 кодинг, наука, human preferences, поиск - все так или иначе должно работать
🟣можно оптимизировать своего собственного агента, начиная как бы не с нуля, а с текущих наработок (с математикой IMO мы так и сделали в эксперименте, и получилось отлично)
🌸Github https://github.com/facebookresearch/HyperAgents
Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит, почему-то принесло только в мои личные сети.
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
Yulu Gan, Phillip Isola
Paper: https://arxiv.org/abs/2603.12228
Code: https://github.com/sunrainyg/RandOpt
Review: https://arxiviq.substack.com/p/neural-thickets-diverse-task-experts
# TL;DR
ЧТО сделали: Авторы предложили полностью параллельный безградиентный алгоритм RandOpt для post-training. Он улучшает предобученные большие языковые модели (LLM) путём простого сэмплирования случайного гауссовского шума поверх весов, оценки этих зашумлённых моделей и ансамблирования предсказаний лучших из них.
ПОЧЕМУ это важно: Работа ставит под сомнение устоявшееся мнение, что выравнивание (alignment) языковых моделей строго требует сложной последовательной оптимизации вроде обучения с подкреплением. Исследование раскрывает структурный феномен «нейронных дебрей» (neural thickets). Оказывается, при достаточном масштабе предобученная модель работает как распределение, в непосредственной окрестности весов которого плотно упакованы разнообразные эксперты под конкретные задачи.
Погружаться в дебри тут: /channel/gonzo_ML_podcasts/2879