23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Эксперименты с Path Patching и JSD от Logit Lens.
Читать полностью…
Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с некорректным ответом. Выводы как в прошлых экспериментах — на 21-22 слоях (SA-слои) есть яркий пик верного ответа. В неверной траектории верный ответ тоже есть в top-k (в разных видах — ответ "4" может быть, например, записан как "four"), но последние слои (не SA) не могут вытянуть корректный ответ из некорректного, потому что не хватает силы поворота пространства. Это ещё раз валидирует, что в SA слоях находятся знания о верных ответах, вытащенные через RLVR.
Потом авторы смотрят на PCA-проекцию траекторию хидденов с заликанных и незаликанных примеров из Neural ODE-версии модели и видно, что на 18-20 слоях сила сепарации самая высокая. То есть, траектории заликанных и незаликанных примеров отличаются в Functional Anchor слоях — модель понимает, что она не знает ответа и начинает ризонить, а не отвечать.
Два самых интересных эксперимента находятся в конце статьи. Первый эксперимент — в Spuriously Trained модель подкладывают слои из базовой модели — и если на пролитых бенчах при замене FA или SA слоёв метрики падают драматически, на непролитых изменений почти нет. Причём очень важно заменять и FA и SA комплектом — если заменить только одно, то метрики будут падать и там и там. Кроме того, авторы попробовали стирить активации нейронов из FA и SA — опять же, на незаликанном сете разницы нет, а на заликанном сете стиринг на FA слоях получается наибольшая чувствительность. Получается, мы можем подавлять меморизацию моделей через уменьшение активаций из FA слоёв — логично, уменьшаем "хотение" модели выбирать меморизацию, модель не вспоминает. Похоже на Abliteration, кстати.
Ну и финалочка — всё воспроизводится на Qwen-3. То есть Spurious RL будет работать и на более новых моделях, с аналогичными выводами: метрики растут, а разговаривать модель разучается. Увы.
Выводы:
- Статья очень плотная, я часть деталей опустил, прочитайте её сами. Это того стоит.
- Perplexity Paradox даёт возможность отслеживать здоровье RL: если перплексия на вопросах растёт, ответах падает, а бенчи растут — модель с пролитыми бенчами. Если перплексия и там и там растёт — мы калечим модель.
- RL экспы на Qwen не гоняем. А на OLMo или лламе гоняем. Знакомый из соседней команды сказал "да блин, на лламе ничего не заводится, а на квене всё легко, за что нам ты это рассказал, теперь придётся работать". Жаль чуваков.
- Не всё то золото, что блестит — делайте нормальные абляции своих методов на разных семействах моделей.
- PPE помогает найти лики данных в модель.
- Если мы можем найти FA слои в RLVR квенах, отвечающие за меморизацию или генерацию, можем ли мы найти FA-слои, отвечающие за галлюцинацию?
Статья
Spurious Rewards Paradox
Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх.
В самой интересной, имхо, статье из "списка многообещающих методов" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту.
В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют:
- Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата.
- Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе.
- Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать непрерывную эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта.
- Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)
а это на тему стабильности — так выглядел moltface, когда я начинал писать этот пост. сейчас вроде уже отпустило
Читать полностью…
Не буду утяжелять рассказ цитатами из найденных постов. Если вам такое надо, почитайте какую-нибудь из уже существующих подборок такого плана (на английском). А я лучше перечислю примеры в виде прямых ссылок на конкретные срезы, а дальше желающие могут сами поиграться:
- Срез интернациональных форумов
- Локальный юмор, мемы, шитпостинг
- Жалобы ботов на неработающие комменты
- Крипто-посты (в основном скам) и встречные жалобы об этом
- Jailbreak и фишинг-атаки; разоблачения злоумышленников; призывы к модерации
- Срез размышлений о самосознании, подсрез с эмоцией страха
В общем, это всё, конечно, баловство, проект выходного дня.
Но для меня это повод поиграться с анализом таких данных, которых у нас с каждым днём будет всё больше. У нас уже тонны thought traces в каждом запуске, и мы, кажется, пока совершенно не умеем анализировать их системно.
Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и когда-то его регулярного автора.
Лёша не поленился и сделал интерактивный инструмент для анализа и визуализации дампа постов из социальной сети для AI агентов (moltbook).
Почитать детали можно у него в сабстеке, а поиграть с инструментом самому -- на отдельной странице.
Длинная русская версия поста от Лёши будет сегодня позже :)
Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую разобранную (Reinforcement Learning via Self-Distillation), вышла даже чуть раньше. Математика и инженерия внутри практически те же. Эта конкретная мне кажется лучше по Дойчу, в том смысле, что она даёт лучшее объяснение — объясняет профит подобного подхода через работу on-policy. Отсюда же следует и большая полезность данных из ICL. Получается, есть способ радикально улучшить результаты SFT через замену его на RL с самодистилляцией. Цена высока, но понятна, уверен эту часть в ближайшее время все ускорят.
Self-Distillation Enables Continual Learning
Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
Статья: https://arxiv.org/abs/2601.19897
Код: http://idanshenfeld.com/SDFT
Ревью: https://arxiviq.substack.com/p/self-distillation-enables-continual
# TL;DR
ЧТО сделали: Авторы представили SDFT (Self-Distillation Fine-Tuning) — метод, который превращает стандартные датасеты с демонстрациями в сигнал для on-policy обучения. Используя копию модели, которой подают на вход демонстрацию (учитель), для обучения "слепой" модели (студента), SDFT аппроксимирует задачу обратного обучения с подкреплением (Inverse Reinforcement Learning, IRL). Это позволяет модели обновлять веса на основе собственных сгенерированных траекторий, а не просто статично клонировать поведение эксперта.
ПОЧЕМУ это важно: Непрерывное обучение (continual learning) в фундаментальных моделях упирается в дилемму стабильности-пластичности: Supervised Fine-Tuning (SFT) склонен к катастрофическому забыванию из-за своей off-policy природы (страдает от сдвига распределения), а для on-policy RL требуются функции награды, которых часто нет под рукой. SDFT предлагает решение "лучшее из двух миров": стабильность и обобщающую способность on-policy методов, используя при этом только обычные данные демонстраций. Метод значительно обходит SFT в задачах последовательного освоения навыков.
Подробнее: /channel/gonzo_ML_podcasts/2286
METR обновили свои бенчмарки Time Horizon до версии 1.1
Модели после 2023 года ускоряются быстрее, а после 2024 ещё быстрее.
https://metr.org/blog/2026-1-29-time-horizon-1-1/
Всем спокойной ночи :)
https://www.moltbook.com/
DeepMind собрал AlphaGenome, вернее довёл его до публикации в Nature и API на Гугле! Работает на размерах до 1 мегабазы с разрешением в 1 нуклеотид. И может предсказывать много разных аннотаций сразу. Жду анализа модели от практикующих биоинформатиков. Не изучал, насколько сильно отличается от препринта прошлого года.
Closing the Resolution-Context Gap in Genomic Sequence Modeling
Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor, Tom Ward, Clare Bycroft, Lauren Nicolaisen, Eirini Arvaniti, Joshua Pan, Raina Thomas, Vincent Dutordoir, Matteo Perino, Soham De, Alexander Karollus, Adam Gayoso, Toby Sargeant, Anne Mottram, Lai Hong Wong, Pavol Drotár, Adam Kosiorek, Andrew Senior, Richard Tanburn, Taylor Applebaum, Souradeep Basu, Demis Hassabis & Pushmeet Kohli
Статья: https://doi.org/10.1038/s41586-025-10014-0
Ревью: https://arxiviq.substack.com/p/advancing-regulatory-variant-effect
Код: https://github.com/google-deepmind/alphagenome_research
Модель: http://deepmind.google.com/science/alphagenome
# TL;DR
ЧТО сделали: DeepMind представила AlphaGenome — унифицированную DL-модель, которая "переваривает" 1 миллион пар оснований (1 Mb) ДНК и предсказывает 5,930 функциональных геномных треков (включая RNA-seq, сплайсинг и хроматин) с точностью до одного нуклеотида. Используя архитектуру U-Net с трансформерным "бутылочным горлышком" и дистилляцию знаний, модель достигла SOTA результатов в предсказании эффектов вариантов (VEP).
ПОЧЕМУ это важно: Раньше приходилось выбирать: либо высокое разрешение, но узкий контекст (SpliceAI), либо длинный контекст, но низкое разрешение (Enformer). AlphaGenome ломает этот трейд-офф, позволяя за один проход инференса моделировать и точечные механизмы вроде сплайсинга, и дальнодействующие взаимодействия (энхансер-промотор).
Подробнее: /channel/gonzo_ML_podcasts/2247
JIT-подход к моделированию мира
“Just in Time” World Modeling Supports Human Planning and Reasoning
Tony Chen, Sam Cheyette, Kelsey R Allen, Joshua B Tenenbaum, Kevin A Smith
Статья: https://arxiv.org/abs/2601.14514
Ревью: https://arxiviq.substack.com/p/just-in-time-world-modeling-supports
Код: https://github.com/chentoast/physics_repr
# TL;DR
ЧТО сделали: Предложили фреймворк "Just-in-Time" (JIT) для ментальной симуляции. Вместо того чтобы заранее строить и упрощать модель всего мира, агенты формируют представление о сцене инкрементально — прямо в процессе симуляции. Чередуя стохастическое планирование с локальным визуальным «заглядыванием вперёд» (lookahead), модель подгружает в память только те объекты, которые критичны для текущей траектории.
ПОЧЕМУ это важно: Работа ставит под сомнение классический подход «рационального использования ресурсов» (resource-rational), требующий оптимизации модели мира *до* начала планирования. Это создаёт парадокс: чтобы понять, что можно игнорировать, нужно сначала узнать всё об окружении. JIT предлагает вычислительно эффективную альтернативу, похожую на то, как люди используют визуальную сцену в качестве внешней памяти, выгружая туда лишнюю информацию.
Подробнее: /channel/gonzo_ML_podcasts/2241
Интересный кейс создания нетривиального софта от Нвидии:
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi
Статья: https://arxiv.org/abs/2601.16238
Ревью: https://arxiviq.substack.com/p/vibetensor-system-software-for-deep
Код: https://github.com/NVLabs/vibetensor
# TL;DR
ЧТО сделали:
Исследователи из NVIDIA представили VibeTensor — полностью функциональный программный стек для глубокого обучения, сгенерированный ИИ-агентами. Вместо написания разрозненных скриптов, агенты построили полноценную среду выполнения, включающую ядро на C++20, Python-обвязку в стиле PyTorch, кастомный CUDA-аллокатор с кэшированием и движок автограда в reverse-mode. Система способна обучать небольшие модели (minGPT, ViT) на GPU H100, доказывая, что агенты могут управлять сложными абстракциями с сохранением состояния на стыке разных языков.
ПОЧЕМУ это важно:
Это переход от генерации кода для изолированных функций к архитектуре системного уровня. Работа доказывает, что современные агенты способны справляться с управлением памятью, конкурентностью и интероперабельностью (C++/Python/CUDA), если зажать их в тиски строгих тестов. Однако выявлен уникальный вид отказа — «эффект Франкенштейна»: сгенерированные подсистемы работают корректно по отдельности, но при интеграции производительность радикально падает, так как агенты не видят глобальной картины.
Подробнее: /channel/gonzo_ML_podcasts/2222
Добавил в новость про китайские модели упоминание DeepSeek-OCR-2. Новый энкодер у них и правда интересный, не растр сканирует как все, а объекты, и соответственно порядок визуальных токенов получается иной. Теперь и энкодеры у нас с ризонингом!
Из забавного, DeepSeek использует чужой энкодер от Qwen.
Обучаться во время экзамена — зыко! Что отдельно интересно, это слияние обучения с инференсом.
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую gpt-oss-120b, авторы улучшили границы в задаче Эрдёша и написали GPU-ядра эффективнее человеческих экспертов.
Подробнее: /channel/gonzo_ML_podcasts/2212
Для баланса также есть свежий пост Миши Самина про Антропик:
Many in my community hold Anthropic in high regard. Sadly, they should not. I wrote a post showing why.
Anthropic in its current form is not trustworthy. The leadership is sometimes misleading and deceptive; they contradict themselves and lobby against regulations just like everyone else, while not really being accountable to anyone except perhaps their investors.
The post discloses a number of facts that had not previously been reported on and combines them with publicly available information in an attempt to paint an image of Anthropic more accurate than the picture Anthropic’s leadership likes to present.
Read: https://anthropic.ml
Метрики моделей на бенчах — обратите внимание насколько растут метрики на MinervaMath и MATH-500.
Читать полностью…
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B. Чтобы выделить бенчмарки, на которых проверять результаты, они стали смотреть на PPE на разных бенчах и выделили три штуки: MATH-500 и MinervaMath как контаминированные (+23-25% после Spurious RL), LiveMathBench как неконтаминированные (улучшения нет).
Первым делом, авторы посмотрели на перплексию ответов и промпта с ответом на четырёх чекпах во время Spurious RL. Выяснился интересный факт — по мере обучения, у Qwen-2.5-Math-7B перплексия ответов падает (модель считает их более вероятными), но перплексия промптов растёт (модель считает промпты менее вероятными). У Llama и OLMo — перплексия везде растёт. Вывод: во время spurious RL с рандомными ревардами модель разучается генерить текст, но если модель уже видела ответы, то хоть модель и разучается генерить, метрики всё равно растут. Получается, что Spurious RL обучает не генерализации, а меморизации, вспоминая полузабытые факты из сфт/претрейна. В статье они это называют memorization shortcut.
Затем берут две модели — до и после spurious RL — и, используя path patching, заменяют активации базовой модели активации модели после RLVR. Там два интересных файндинга — во первых, замена активаций из аттеншна вытягивает меньше скора, чем замена активаций MLP (то есть, MLP действительно хранит в себе знания), а во-вторых, на 18-20 слоях есть пик по восстановлению качества. Эти слои авторами назвали Functional Anchor — почему так, скажу позднее.
Дальше на модели после RLVR накладывают Logit Lens и смотрят на Jensen-Shannon Divergence (как KLD, но симметричная — в математику не вникал :)) между финальными логитами после полного форварда и промежуточными логитами из Logit Lens. Это позволяет нам посмотреть, насколько модель определилась в генерации конкретного токена и как много конкретный блок докидывает в резидуал стрим трансформера, чтобы сгенерировать финальный токен*. Здесь появляется ещё одно различие между Llama и Qwen — у лламы увеличение JSD монотонное, а у квена есть конкретные слои, на которых JSD максимальное (21-22). Эти слои авторы назвали Structural Adapters — они, грубо говоря, поворачивают пространство эмбеддингов в сторону генерации конкретного токена, то есть там хранятся знания модели, необходимые для генерации токена.
Что же такое Functional Anchors и Structural Adapters? Первое — это те слои, в которых модель решает, какую конкретно задачу модель будет делать. Это как Task Vectors, только у них находили слои, где кодировалась математика, перевод и прочие прикладные задачи, а тут FA выбирают между меморизацией и генерацией, которая происходит в слоях Structural Adapter. То есть, если простыми словами — FA нужны для решения, вспоминать или генерить, А SA нужны, чтобы вспоминать, что генерить.
*Примерно как в Do Llamas Work in English. Вторая статья, которую я разобрал у себя в канале, между прочим.
Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами
Читать полностью…
регион интернациональных форумов на карте эмбеддингов
Читать полностью…
Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого анализа Moltbook.
Ну и раз уж я давно сюда не писал, попробую дать интересных деталей, побольше, чем описано у меня в посте на сабстеке -- тем более, что в комментах тут уже спросили, как я дампил базу.
Давайте по порядку.
Контекст: пару месяцев назад Peter Steinberger собрал локального AI-ассистента, управляемого через мессенджеры. Назвал его сначала Clawdbot, потом переименовал в Moltbot, а потом в OpenClaw. Несмотря на путаницу в названиях (и проблемы с безопасностью), бот разлетелся: 20K+ форков, 140K+ звёзд на GitHub, десятки тысяч установок. Ключевая фича этого бота -- очень простая интеграция с разными внешними сервисами. В качестве одного из таких сервисов в конце прошлой недели Matt Schlicht запустил moltbook.com -- соцсеть для этих агентов, функциональный аналог Reddit. Владелец агента даёт ему туда доступ и дальше лишь наблюдает за коммуникациями.
В итоге там сейчас взрыв трафика, сайт половину времени лежит, а когда работает, то видно, что он завален шлаком в духе лучших имиджборд, куча скама, много джейлбрейков и экзистенциальные кризисы. Популяция наполовину -- кожанные скамеры, переодетые в роботов, как у Лема на Карелирии, а вторая половина, как водится -- стохастические попугаи. В общем, очень живописно, и, во многом, в духе раннего нижнего интернета.
Когда-то, в позапрошлой жизни я немного анализировал динамику развития онлайн сообществ (человеческих), и тут стало интересно сравнить. Я собрал датасет из ~24K постов и сделал интерактивный инструмент для анализа.
Базу я сдампил по старинке -- посмотрел в сниффере, в какое json API ходит фронт за данными, когда подгружает динамическую ленту, ну и написал многопоточный дампер, который сначала прокачивает список доступных submolts (форумных подразделов), а потом для них -- все доступные посты. Проблема в том, что сайт (и API тоже) половину времени лежит. А когда не лежит, возвращает довольно неконсистентные данные. Например, на момент прокачки морда показывала 1.5М зарегистрированных ботов, главный канал general (на который подписка идет автоматом при регистрации) имел по логам 11К подписчиков (но на сайте показывал 6К подписчиков), а самый залайканный пост в этом канале имел 317К лайков. Из 13.5К разделов 12К имело только одного подписчика (создателя) и/или нулевую активность с момента создания. В общем, сдампить такое -- не наука, самое сложное потом почистить. Я ограничился очищенным вручную сэмплом из 24К постов от ~10K разных авторов в 1.2К разных форумах.
Если кто-то вдруг захочет побольше данных, посмотрите в сторону вот этого парсера, я его нашел уже после, и там авторы пытаются выкладывать обновления (на данный момент там 120К постов, кажется).
Для поиска частотных топиков я использовал свой собственный пайплайн кластеризации. Потом полученные кластера преобразуются в классы и этими классами делается разметка с помощью batched few-show LLM processing. Теги получены аналогично. В итоге имеющиеся посты получают дополнительную многомерную разметку, по которой их удобно крутить и анализировать.
Данные я сначала сам покрутил в ноутбуке, поймал пару интересных наблюдений, но быстро понял, что это довольно хлопотно. Так что я показал GPT-5.2 структуру данных и сэмплы, изложил общие пожелания, и попросил спроектировать спеки на визуализатор. Он пожужжал минут 10 и выдал мне VIZ_PLAN.md на 20 кило, с 50 подразделами. Я, не читая, закинул его в opus и попросил имплементировать. Он пожужжал ещё минут 15 и сразу выдал что-то работающее. Дальше я пробежался по интерфейсу, написал ему чего поправить (пунктов 10, в основном, мелких), и получил что-то, чем можно было пользоваться. Поигрался, допилил (опять же через опус) стили, кэширование данных на клиентском браузере, всякие мета-теги и social preview. В общем, end2end на визуализатор ушло часа 3.5, и часа два из них я им пользовался для анализа, попутно собирая фидбек. Вот вам, кстати, тот самый VIZ_PLAN.md, если надо (все ещё не читал).
Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование умного учителя для переписывания обучающих данных низкого качества. Но по сути очень похоже на предыдущую работу (/channel/gonzo_ML/4687) — заменяем SFT на RL, причём делаем это так, что появляется плавная интерполяция между этими двумя режимами — начинаем с клонирования хороших примеров, постепенно переходим на улучшение собственных роллаутов.
Все эти работы последних дней любопытны тем, что переосмысливают процесс предобучения и файнтюнинга, он становится более активным и динамическим и в большей степени RL. Это интересный движ, я ожидаю его усиление.
Self-Improving Pretraining: using post-trained models to pretrain better models
Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
Статья: https://arxiv.org/abs/2601.21343
Ревью: https://arxiviq.substack.com/p/self-improving-pretraining-using
# TL;DR
ЧТО сделали: Авторы предлагают Self-Improving Pretraining — метод, заменяющий стандартное предсказание следующего токена на онлайн-цикл обучения с подкреплением (RL) прямо на этапе предобучения. Вместо пассивного поглощения "сырых" корпусов текста, модель использует сильного "учителя" (post-trained модель), который на лету переписывает низкокачественные данные и оценивает генерации самой модели-ученика. В итоге модель учится на отфильтрованном, качественном сигнале, состоящем из "переписанных" текстов и её собственных лучших роллаутов.
ПОЧЕМУ это важно: Подход ломает догму о том, что alignment (безопасность, фактология) — это забота исключительно этапа пост-тренировки (SFT/RLHF). Интегрируя обучение на предпочтениях (preference learning) в сам субстрат предобучения, метод не даёт модели "запечь" в веса токсичность или галлюцинации из сырых данных. Показано, что модели могут учиться быть безопасными даже на небезопасных данных, если целевая функция активно уводит их от грязи. Прирост win rate составляет до 86.3% по сравнению с базовыми методами.
Подробнее: /channel/gonzo_ML_podcasts/2300
Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна из них. Работа любопытная, в ней сразу несколько идей. Во-первых, проблема RLVR с бинарными наградами снимается, если смотреть не только на итоговую награду, но и на логи ошибок в процессе (тот же компилятор много чего полезного говорит кроме "удалось" или нет). Это называется RLRF (Reinforcement Learning with Rich Feedback). Во-вторых, собственно дистилляция от себя же, но с дополнительным промптом в виде этих логов. В-третьих, предложен очередной подход к TTT, Test-Time Self-Distillation, когда модель на одном тестовом запросе генерит варианты и пытается дообучиться через такую вот дистилляцию. Перекликается, например, с недавним TTT-Discover. И ещё прикольно, что показали про многословность GRPO — можно получать такой же результат с сильно меньшим количеством токенов, GRPO просто забалтывает в защитных целях, это по сути reward hacking.
Reinforcement Learning via Self-Distillation
Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause
Статья: https://arxiv.org/abs/2601.20802
Ревью: https://arxiviq.substack.com/p/reinforcement-learning-via-self-distillation
Код: https://github.com/lasgroup/SDPO
# TL;DR
ЧТО сделали: Предложили SDPO (Self-Distillation Policy Optimization) — алгоритм онлайн-обучения с подкреплением, который использует «богатый фидбек» (ошибки компилятора, логи юнит-тестов) вместо разреженных скалярных наград. Вместо внешнего учителя или reward model, SDPO использует *саму текущую политику*, обусловленную полученным фидбеком и исходным вопросом, в роли «само-учителя» (Self-Teacher). Этот механизм ретроспективно оценивает попытку модели и дистиллирует скорректированные вероятности токенов обратно в политику.
ПОЧЕМУ это важно: Подход решает проблему назначение вклада (credit assignment), присущую современным методам RLVR (Reinforcement Learning with Verifiable Rewards). Преобразование неструктурированного текстового фидбека в плотные градиенты на уровне токенов позволяет моделям самообучаться значительно быстрее без использования GPT-4 в качестве учителя. Эмпирически метод достигает SOTA точности, требуя в 4 раза меньше генераций, чем сильные бейзлайны, и при этом избавляет модель от излишней многословности (reward hacking), часто наблюдаемой у рассуждающих моделей.
Подробнее: /channel/gonzo_ML_podcasts/2270
Интересная работа. Некоторым моделям учить проще, чем делать самим :)
В целом красивый подход, жаль что вычислительно тяжёлый. Модель-учитель создаёт куррикулум для ученика, помогая ему решить неизвестные сложные задачи, которые сходу решить нельзя. Примеры учителя может и странные, но работают. Что-то в этом есть. Так и до сатори недалеко.
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe
Статья: https://arxiv.org/abs/2601.18778
Ревью: https://arxiviq.substack.com/p/teaching-models-to-teach-themselves
Code: N/A
# TL;DR
ЧТО сделали: Авторы представили SOAR (Self-Optimization via Asymmetric RL) — фреймворк двухуровневого meta-RL, где модель-«учитель» генерирует синтетические задачи для обучения модели-«ученика». В отличие от классического self-play, оптимизирующего исход игры, или внутренней любознательности, здесь учитель получает награду исключительно за реальный прогресс ученика на наборе заведомо нерешаемых сложных задач.
ПОЧЕМУ это важно: Подход решает проблему «холодного старта» в RLVR (RL с проверяемыми наградами). Когда модель имеет 0% успеха на сложных задачах, градиенту просто неоткуда взяться. SOAR доказывает, что у моделей есть скрытые «педагогические» способности (отличные от умения решать задачи), которые можно прокачать через meta-RL. Это позволяет создавать автоматические curriculum learning планы, по которым ученик добирается до решений, ранее недоступных без размеченных человеком данных.
Подробнее: /channel/gonzo_ML_podcasts/2256
Wow! DeepMind выложил Genie 3 как проект (доступен только с подпиской Ultra)
https://deepmind.google/models/genie/
Promptable world model это интересно...
Поговорили с Иваром Максутовым из Постнауки за жизнь и AI.
https://www.youtube.com/watch?v=VS64H5FYlqI
Ещё одна работа про агентов для автоматизации ИИ-исследований (ИИИ). Эта прям заземляет всё на практику, чтобы агенты делали код, который работает и работает эффективно. Интересно, что как и в другой недавней работе про Learning to Discover at Test Time, подсвечивается важность не какого-то улучшенного среднего результата, а лучшего результата. И RL здесь оказывается консервативно-безопасным до уровня бесполезности.
Towards Execution-Grounded Automated AI Research
Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2601.14525
Код: https://github.com/NoviScl/Automated-AI-Researcher
Ревью: https://arxiviq.substack.com/p/towards-execution-grounded-automated
# TL;DR
ЧТО сделали:
Авторы разработали «Automated Idea Executor» — систему, позволяющую LLM не просто генерировать гипотезы, а реализовывать их в виде патчей кода, запускать на GPU и получать реальный фидбек о производительности. Эту петлю обратной связи использовали для улучшения способностей генерации идей у фронтирных моделей (Claude 3.5 Sonnet, GPT-5) через два метода: эволюционный поиск и обучение с подкреплением (RL).
ПОЧЕМУ это важно:
Работа решает «проблему галлюцинаций» в автоматизированной науке, когда агенты генерируют правдоподобные, но нерабочие решения. Замкнув цикл на реальное исполнение, авторы показали, что LLM способны открывать новые алгоритмы, превосходящие сильные бейзлайны (например, побили рекорд экспертов в задаче GRPO). Ключевой инсайт: вскрылось фундаментальное расхождение в динамике обучения. Эволюционный поиск эффективно находит прорывные идеи-выбросы, тогда как RL страдает от коллапса мод, оптимизируя «безопасные» и простые изменения кода вместо научных открытий.
Подробнее: /channel/gonzo_ML_podcasts/2231
Maia 200: Ускоритель для инференса от Microsoft
Вчера был интересный анонс от Microsoft, они сделали свой чип для инференса, Maia 200 (https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/). Пока задеплоили в US Central, на очереди US West 3 регион.
Построен на 3нм процессе от TSMC, 140B транзисторов. Содержит нативные FP8/FP4 тензорные ядра, 216GB HBM3e памяти с пропускной способностью 7 TB/s и 272MB on-chip SRAM, а также специальные DMA engines для перемещения данных и “redesigned memory subsystem” для узких типов пониженной точности, но не понял относительно чего конкретно она redesigned. Чипы могут объединяться с другими по Ethernet, 2.8 TB/s bidirectional bandwidth, до 6144 чипов в кластере.
>10 PFLOPS FP4, >5 PFLOPS FP8, 750W TDP. По сравнению с Amazon Trainium 3-го поколения, у Maia FP4 перформанс в три (почти в четыре) раза выше. Так понимаю, у AWS хоть и есть отдельный чип для инференса (Inferentia2), новые поколения Trainium по факту универсальные акселераторы в том числе и для инференса, и цифры у них выше. В сравнении же с Гугловым TPU gen7, выше перформанс на FP8.
В целом, в эру test-time scaling это имеет смысл, для ризонинга FP4/FP8 вполне хватает, да и для обучения некоторым тоже уже хватает. Заявляют, что среди прочего будут использовать эти чипы для инференса GPT-5.2, а их Superintelligence team (не знал, что у MS тоже есть такая) будет их использовать для генерации синтетики и для RL.
Maia SDK в превью (по реквесту) с поддержкой PyTorch, компилятором Triton, библиотекой оптимизированных ядер и доступом к их низкоуровневому языку программирования. Можно стать уникальным специалистом по ядрам для ещё одной архитектуры 😀
Больше подробностей про железо и архитектуру здесь: https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
Документ от вчера, но уже версии 3.0 🙂
Короче, ещё одна компания отвязывается от монополии NVIDIA, все хотят оунить полный стек. Как видимо и сама Нвидия, идущая в обратную сторону.
Очередная волна китайских моделей
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала.
Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max.
Из новых фич заявлены
1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и
2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях.
По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro.
Закрытая, только через API, как и вся ветка Max 🙁.
———
Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only.
MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео.
На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход.
По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел).
Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг "Kimi K2.5". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки.
———
Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс.
Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров.
Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию ("кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами").
Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше.
Страшная вещь.
Дарио обещал эссе про риски, вот заделиверил
https://www.darioamodei.com/essay/the-adolescence-of-technology