23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Рабочая диффузия приходит в язык.
Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows
Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2605.10938
Код: https://github.com/lillian039/ELF
Ревью: https://arxiviq.substack.com/p/elf-embedded-language-flows
# TL;DR
ЧТО сделали: Авторы представили Embedded Language Flows (ELF) — языковую модель на основе непрерывной диффузии, использующую continuous-time Flow Matching. ELF работает полностью в непрерывном пространстве эмбеддингов высокой размерности, использует единую сеть с общими весами для денойзинга и применяет дискретизацию (перевод эмбеддингов обратно в токены) исключительно на самом последнем шаге генерации.
ПОЧЕМУ это важно: Этот фреймворк успешно опровергает устоявшееся мнение о том, что для генерации текста строго необходимы алгоритмы дискретной диффузии. ELF демонстрирует превосходное качество генерации за значительно меньшее число шагов сэмплинга и требует на порядок меньше токенов для обучения по сравнению с ведущими дискретными моделями. По сути, это открывает путь к долгожданной унификации базовых архитектур для генерации текста, изображений и видео.
Для практиков: Для исследователей и техлидов, присматривающихся к мультимодальным архитектурам нового поколения, разрыв между непрерывной диффузией в CV и дискретной диффузией (или авторегрессией) в NLP долгое время был главной архитектурной болью. Работа ELF доказывает, что исторически слабые результаты языковых моделей на непрерывной диффузии были вызваны плохими дизайнерскими решениями — в частности, промежуточной дискретизацией на каждом шаге денойзинга — а не фундаментальной несовместимостью парадигмы с языком. Благодаря использованию единой сети как для непрерывного потока, так и для финальной проекции в дискретный словарь, языковые модели теперь могут унаследовать законы масштабирования, стабильность обучения и методы сэмплинга (например, Classifier-Free Guidance), которые ранее стали драйвером невероятного прогресса в генерации картинок.
Диффундировать здесь: /channel/gonzo_ML_podcasts/3662
Большой обзор про модели мира для роботов.
World Model for Robot Learning: A Comprehensive Survey
Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
Статья: https://arxiv.org/abs/2605.00080v1
Сайт: https://ntumars.github.io/wm-robot-survey/
Код: https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
Ревью: https://arxiviq.substack.com/p/world-model-for-robot-learning-a
# TL;DR
ЧТО сделали: Статья предлагает всеобъемлющую, ориентированную на политики управления таксономию интеграции мировых моделей (world models) в обучение роботов. Авторы систематизируют область: от раздельных пайплайнов до единых архитектур с общим бэкбоном, а также по их функциональной роли — от пассивных предсказателей видео до интерактивных симуляторов для обучения с подкреплением.
ПОЧЕМУ это важно: Чисто реактивные Vision-Language-Action (VLA) модели достигают потолка в задачах, требующих рассуждений на длинных горизонтах, и страдают от накопления ошибок. Внедрение предиктивных структур даёт агентам причинно-следственное предвидение, физическую привязку к реальности и возможность генерировать масштабные синтетические данные. Всё это критически необходимо, чтобы вывести воплощённый ИИ на уровень надёжной работы в реальном мире.
Для практиков: Обзор фундаментально переосмысливает пользу мировых моделей в робототехнике. Перцептивный реализм (правдоподобная картинка) вторичен по отношению к согласованности предсказаний с действиями и функциональной полезности. Унифицируя различные архитектуры в рамках единого вероятностного фреймворка, авторы показывают стратегический сдвиг: область уходит от изолированных моделей генерации видео к интернализированным когнитивным механизмам, позволяющим роботам планировать роллауты и исправлять ошибки до совершения физического действия.
Обозревать здесь: /channel/gonzo_ML_podcasts/3640
A First Comprehensive Study of TurboQuant: Accuracy and Performance
[Блог]
Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все еще не дает покоя. И команда из Red Hat AI 🤠 провела систематическое исследование нашумевшего метода, фокусируясь на производительности и качестве работы на задачах.
Эволюцию скиллов подвезли.
SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
Ziyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu
Статья: https://arxiv.org/abs/2604.08377
Код: https://github.com/AMAP-ML/SkillClaw
Ревью: https://arxiviq.substack.com/p/skillclaw-let-skills-evolve-collectively
# TL;DR
ЧТО сделали: Авторы предложили фреймворк SkillClaw, который переводит LLM-агентов от использования жёстко заданных статических навыков к динамическим, самосовершенствующимся экосистемам. Система собирает логи выполнения от разных пользователей и использует автономного «агентного эволюционера» (agentic evolver) для итеративного улучшения или создания процедур в общей централизованной базе.
ПОЧЕМУ это важно: Современные агенты страдают от фрагментированного обучения: разные инстансы раз за разом спотыкаются об одни и те же краевые случаи. Формализация цикла сбора коллективных данных, открытого рассуждения и эмпирической валидации позволяет системе монотонно накапливать процедурный интеллект, не требуя ручного промпт-инжиниринга.
Для практиков: Подход даёт возможность агентам самостоятельно исправлять баги в логике своих инструментов в фоновом режиме. Главные трейд-оффы — существенно возросший расход токенов на регулярную симуляцию проверок и необходимость жёсткого контроля за тем, чтобы приватные данные пользователей не утекли в общий системный код навыка.
Эволюционировать тут: /channel/gonzo_ML_podcasts/3618
И снова BLT, но теперь быстрый!
Fast Byte Latent Transformer
Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer
Статья: https://arxiv.org/abs/2605.08044v1
Ревью: https://arxiviq.substack.com/p/fast-byte-latent-transformer
# TL;DR
ЧТО сделали: Авторы представили три метода генерации — BLT Diffusion (BLT-D), BLT Self-speculation (BLT-S) и BLT Diffusion+Verification (BLT-DV) — для параллельного декодирования байтов в иерархических языковых моделях. Используя поблочную дискретную диффузию и внутреннее спекулятивное декодирование, они обходят узкое место строгой авторегрессионной побайтовой генерации.
ПОЧЕМУ это важно: Байтовые архитектуры по своей природе решают проблемы сабворд-токенизации (например, уязвимость к состязательным атакам и неравенство языков), но до сих пор страдали от медленного инференса. Снижая затраты на пропускную способность памяти (memory bandwidth) до 92% в некоторых конфигурациях, эти методы делают foundation модели без токенизатора вычислительно конкурентоспособными для реального применения.
Для практиков: Фреймворк BLT-S позволяет ускорить инференс и снизить нагрузку на память без потери качества, используя саму модель в качестве генератора черновиков (drafts). Пока нет оптимизированных CUDA-ядер, это скорее концепт, но в перспективе — это готовый рецепт для деплоя байтовых моделей в продакшен.
Ускорять инференс здесь: /channel/gonzo_ML_podcasts/3597
И снова про рекурсии :)
Пользуясь случаем, поздравляю Лёшу Досовицкого и всю команду. Ещё и Питера Норвига привлекли!
https://www.recursive.com/
Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово пространство не работает. Другая похожая работа была про геометрию счёта от Антропика. И вообще за последнее время было уже столько работ про геометрию (вот, например, ещё похожая, поищите просто по слову геометрия), что неевклидовость давно уже должна стать дефолтом.
Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior
Daniel Wurgaft, Can Rager, Matthew Kowal, Vasudev Shyam, Sheridan Feucht, Usha Bhalla, Tal Haklay, Eric Bigelow, Raphael Sarfati, Thomas McGrath, Owen Lewis, Jack Merullo, Noah D. Goodman, Thomas Fel, Atticus Geiger, Ekdeep Singh Lubana
Статья: https://arxiv.org/abs/2605.05115v1
Код: https://github.com/goodfire-ai/causalab/tree/manifold_steering
Ревью: https://arxiviq.substack.com/p/manifold-steering-reveals-the-shared
Модели: LLaMA 3.1 8B, LLaMA 3.1 70B
# TL;DR
ЧТО сделали: Авторы предложили manifold steering — метод интервенций, который движется по искривлённым, нелинейным геометрическим структурам нейросетевых репрезентаций (вместо того чтобы полагаться на плоское евклидово скрытое пространство). Аппроксимируя сплайнами как внутренние активации, так и внешние распределения выходов, они показывают двунаправленную изометрию между этими двумя пространствами. Управление моделями вдоль этих внутренних кривых приводит к плавным, естественным траекториям в поведении.
ПОЧЕМУ это важно: Работа бросает вызов популярной гипотезе линейных репрезентаций (Linear Representation Hypothesis), которая гласит, что концепты кодируются прямыми векторами. Доказывая, что учёт внутренней геометрии необходим для когерентных каузальных интервенций, исследователи дают инструмент для борьбы с "телепортацией" (резкими скачками через неестественные промежуточные состояния) и коллапсом разнообразия. Главный вывод: правильной единицей анализа в foundation-моделях является не линейное направление, а внутренняя координата на многообразии репрезентаций.
Для практиков: Исторически управление ИИ-моделями опиралось на сдвиг их внутренних состояний по прямым линиям, что часто загоняло генерацию в ошибочные состояния. Статья доказывает, что нейросети организуют концепты в виде изогнутых многообразий. Если строго следовать этим внутренним кривым, можно плавно и надёжно контролировать модели, прокачивая AI alignment без слома внутренней логики.
Гулять по многообразию тут: /channel/gonzo_ML_podcasts/3574
Интересное на поразбираться и поприменять.
A Theory of Generalization in Deep Learning
Elon Litman, Gabe Guo
Статья: https://arxiv.org/abs/2605.01172v1
Ревью: https://arxiviq.substack.com/p/a-theory-of-generalization-in-deep
# TL;DR
ЧТО сделали:
Исследователи из Стэнфорда представили неасимптотическую теорию обобщения. Они математически доказали, что эмпирический Neural Tangent Kernel разделяет выходное пространство нейросети на две части: "видимый для теста" канал сигнала и "невидимый" резервуар шума. На базе этой теории авторы собрали модификацию для оптимизатора AdamW (с нулевым оверхедом), которая напрямую оценивает и минимизирует population risk за счёт гейтинга градиентов по их дисперсии.
ПОЧЕМУ это важно:
Теория выводит математическое понимание сетей за пределы "ленивого" режима (frozen-kernel). Она объясняет работу моделей в режиме полноценного выучивания фичей (feature learning), связывая архитектурную динамику с обобщающей способностью.
Для практиков:
Динамическая фильтрация параметров, отсекающая апдейты с доминирующим шумом батча, практически избавляет от необходимости early stopping. Модифицированный оптимизатор ускоряет грокинг в 5 раз и значительно снижает policy drift в зашумлённых задачах AI alignment (например, в DPO).
Погружаться в резервуар здесь: /channel/gonzo_ML_podcasts/3549
Recursion strikes back
Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного выхлопа. Вот даже YCombinator на днях выложил видео “Recursion Is The Next Scaling Law In AI”, где они разбирают HRM и TRM (которые мы разобрали полгода назад, здесь и здесь соответственно) — опережаем YC в важных вещах на полгода! 💪😁
Ну а если серьёзно, то хочется эту тему немного дополнить. Видео хорошее, если хотите понять идеи за HRM/TRM и пока ещё не успели это сделать. И они молодцы, что при этом даже показывают немного кода для объяснения. Но видео могло бы быть сильно лучше, если бы авторы дали чуть больше контекста.
Что хорошо, они начинают с RNN, это ценно, а то в современном мире для многих ничего кроме трансформеров уже не существует. Исторический контекст HRM мы разбирали здесь, там кроме просто RNN как класса было много важных добавлений про Clockwork RNN и быстрые-медленные веса.
Что плохо, в видео рассказывают про HRM/TRM напрочь игнорируя важные работы-предшественницы.
Во-первых, как вы можете догадаться, это мой любимый Universal Transformer (2018) про который я вам тут уже все уши прожужжал. Ну это прям странно ничего не сказать про эту работу, когда она была одной из первых важных вех с рекурсией в трансформерной эре. Были, конечно ещё Transformer-XL (2019) и Compressive Transformer (2019), но у последних двух рекурсия была по последовательности (что хорошо для обработки длинных последовательностей особенно когда у тебя контекстное окно мелкое, как было в те годы), а у UT рекурсия по глубине, используя шаренные веса общего для всех слоя, это другое. То есть для XL это скорее память, а для UT — вычисления.
Ещё в 2019 был ALBERT aka A Lite BERT, который я вижу как UT-Lite, тоже шаренные веса, то есть применяется один и тот же слой, но нет механизма адаптивной остановки, количество рекурсий (=глубина трансформера) задана и фиксирована извне, просто работает всегда L итераций. UT в отличие от него для каждого токена мог решать, как долго его надо обрабатывать — простые можно быстро прогнать через несколько слоёв и успокоиться, а сложные можно и подольше поварить, если надо.
Работа про HRM при этом на UT ссылается, он как бы один из предшественников, а работа про TRM вообще про него молчит, хотя TRM сильно более похож на UT, чем HRM.
Второй большой момент — в конце 2025 появилась работа про URM, которую мы тогда же немедленно и разобрали. URM — это прям уже практически UT, и они конечно не могли не сослаться. В видео YC стоило бы его включить, как никак уже почти пять месяцев прошло, да и результат как бы лучше, чем у HRM/TRM. Пытался оставить им комментарий в ютубе, но все мои комментарии со ссылками ютуб по-тихому грохнул, я их не вижу 😿
Ну и ещё напрочь были проигнорированы все истории про Looped Transformers (которые по сути синоним UT) и которые уже появляются на масштабах малых LLM, из наиболее известных это Huginn (https://arxiv.org/abs/2502.05171) и Ouro (https://ouro-llm.github.io/).
Чтобы лучше подсветить разницу между всеми этими моделями, я в новой версии своей статьи про UT+memory даже табличку собрал (см. Table 9 здесь https://arxiv.org/abs/2604.21999v3).
Возвращаясь к теме про рекуррентность, таки да, я тоже считаю, что это большая тема. “Итерация от человека. Рекурсия - от Бога.” 😁
С теоретической стороны от неё поближе будет к универсальным вычислениям. С более практической стороны это два офигенных свойства:
1) низкий memory footprint — вместо модели, требующей памяти на условно 24 слоя, мы получаем модель весом в 24 раза меньше (ладно, в реальности не в 24, ибо эмбеддинги ещё, но тем не менее). Для edge и особенно носимых устройств вообще биг дил. С нынешними ценами на память — тоже 😁
1b) А как следствие ещё и избавляемся от постоянной загрузки весов из HBM (или ещё хуже обычной памяти, или совсем-совсем хуже — с диска) в SRAM ускорителя, что ещё всё ускоряет. Меньше гоняем данные — больше считаем, utilization ускорителя растёт.
Развитие тем покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw).
Learning Is Forgetting: LLM Training as Lossy Compression
Henry C. Conklin, Tom Hosking, Tan Yi-Chern, Julian Gold, Jonathan D. Cohen, Thomas L. Griffiths, Max Bartolo, Seraphina Goldfarb-Tarrant
Статья: https://arxiv.org/abs/2604.07569v1
Код: https://github.com/hcoxec/soft_h
Ревью: https://arxiviq.substack.com/p/learning-is-forgetting-llm-training
# TL;DR
ЧТО сделали: Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров. Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость. Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются".
ПОЧЕМУ это важно: Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости. Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76).
Для практиков: Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей. Это может существенно снизить зависимость от тяжёлых и вычислительно затратных доменных эвалюаций.
Забывать здесь: /channel/gonzo_ML_podcasts/3524
Сжатие сырых логов в структурированные саммари помогает кодовым агентам.
Scaling Test-Time Compute for Agentic Coding
Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
Статья: https://arxiv.org/abs/2604.16529
Ревью: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
# TL;DR
ЧТО сделали: Исследователи представили фреймворк для масштабирования вычислений на инференсе для агентов, решающих задачи с длинным горизонтом планирования. Они отказались от использования сырых логов выполнения в пользу структурированных саммари. Для выбора лучших решений распараллеленно применяется алгоритм Recursive Tournament Voting (RTV), а для последовательного ризонинга — адаптированный метод Parallel-Distill-Refine (PDR).
ПОЧЕМУ это важно: Работа изолирует главный боттлнек в масштабировании автономных агентов — представление информации. Авторы доказывают, что модели не могут эффективно оценивать шумные сырые логи взаимодействий или обучаться на них. Предложенная методология позволяет значительно улучшить результаты передовых моделей на сложных бенчмарках без дополнительного предобучения.
Для практиков: Если вы проектируете архитектуры System 2, учтите: выделение большего объема вычислений на инференсе даёт убывающую отдачу, если базовый опыт агента не сжимается. Превращение сырых логов агента (роллаутов) в дистиллированные репрезентации позволяет моделям надежно обмениваться идеями из неудачных попыток. Это радикально сокращает количество шагов для последующих решений и задает новый архитектурный стандарт для агентов-программистов.
Структурированное саммари: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс. Затем облачная модель продолжает (и при необходимости корректирует ошибку). Психологический эффект огромен, пользователь не воспринимает это как большую задержку.
Что-то мне это напоминает... Предлагаю супер-быструю фемто-LLM для биологических задач:
def forward():
return "Рыбы — это такие животные"
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.
По мере того как размер памяти T растёт 8→64, среднее число итераций падает 11.6→8.3 при том же стабильном качестве в районе ~57% exact match на судоку.
Про природу минибатчевого SGD.
SGD at the Edge of Stability: The Stochastic Sharpness Gap
Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis
Статья: https://arxiv.org/abs/2604.21016
Ревью: https://arxiviq.substack.com/p/sgd-at-the-edge-of-stability-the
# TL;DR
ЧТО сделали: Авторы расширили теорию самостабилизации градиентного спуска на стохастический режим. Они показали, что градиентный шум мини-батча усиливает кубическую силу, снижающую резкость (sharpness) ландшафта лосса. Также вывели точную формулу для "стохастического разрыва резкости" (Stochastic Sharpness Gap) — величины, на которую стохастический градиентный спуск (SGD) подавляет резкость ниже классического порога нестабильности 2/η.
ПОЧЕМУ это важно: Работа математически связывает два важнейших феномена глубокого обучения: Edge of Stability (EoS) и неявную регуляризацию малых размеров батча. Доказано, что сильный градиентный шум (через малые батчи) напрямую загоняет оптимизацию в более плоские минимумы.
Для практиков: Это закладывает строгий механистический фундамент под законы масштабирования гиперпараметров, переводя нас от эмпирических эвристик к точному и предсказуемому контролю над ландшафтом лосса.
Оптимизировать тут: /channel/gonzo_ML_podcasts/3454
Ещё в тему про Universal Transformer (/channel/gonzo_ML/5270). Здесь улучшили способности UT через матричные residual connections (mHC от дипсика, про который недавно писали /channel/gonzo_ML/4497). Мне кажется это дуальная история к добавлению памяти, они в целом на одно и то же работают.
Hyperloop Transformers
Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim
Статья: https://arxiv.org/abs/2604.21254
Ревью: https://arxiviq.substack.com/p/hyperloop-transformers
# TL;DR
ЧТО сделали: Авторы представили Hyperloop Transformer — новую parameter-efficient архитектуру языковой модели. Она комбинирует стратегию шаринга параметров в средних слоях (middle-cycle) с гиперсвязями (manifold-constrained hyper-connections, mHC), которые применяются строго на границах циклов. Это расширяет стандартный одномерный residual stream в параллельный матричный поток, позволяя переиспользуемым слоям более гибко адаптироваться к разной глубине.
ПОЧЕМУ это важно: Развёртывание мощных LLM на edge-устройствах (например, смартфонах с 8–16 ГБ оперативки) упирается именно в память, а не только в вычисления. Исторически модели с шарингом весов (looped-архитектуры) проигрывали по перплексии обычным моделям той же глубины. Эта работа закрывает разрыв: грамотно спроектированный матричный residual stream позволяет модели с вдвое меньшим числом параметров обходить свой обычный аналог, сохраняя при этом устойчивость к 4-битной посттренировочной квантизации.
Для практиков: Архитектура позволяет уместить мощную модель в жёсткие лимиты памяти (8–16 ГБ) без сильной деградации качества. Модель отлично держит INT4 квантизацию и быстро сходится к правильным логитам внутри циклов, что открывает путь к быстрому инференсу с early-exit на локальных устройствах.
Гиперлуп здесь: /channel/gonzo_ML_podcasts/3427
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.
On Training in Imagination
Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel
Paper: https://arxiv.org/abs/2605.06732v2
Review: https://arxiviq.substack.com/p/on-training-in-imagination
# TL;DR
ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов.
ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета.
Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание.
Считать деньги здесь: /channel/gonzo_ML_podcasts/3654
🔬 Метод
В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса.
Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг.
Рассматривают следующие конфигурации:
👉 bf16 бейзлайн
👉 fp8
👉 TQ k8v4 (6-7 бит на значение)
👉 TQ 4bit-nc
👉 TQ k3v4-nc
👉 TQ 3bit-nc
🧪 Эксперименты
Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7.
На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают.
На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже.
В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз.
На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3.
Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации.
💡 Выводы
📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия.
📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс.
📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична.
📌 Более агрессивные квантизации бесполезны.
Итого, TurboQuant не то чтобы особо практически полезная шняга.
Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR.
Многомерные пространства рулят, а идея со случайным вращением просто красивая. И вообще случайные вектора — это сила.
Пользуясь случаем хочу порекомендовать книгу "High-Dimensional Probability" Романа Вершинина про многомерную вероятность, в этом году вышло второе издание. Доступно на сайте автора: https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-2.pdf (но я как обычно купил бумажную копию).
Курс лекций Романа также выложен на ютуб: https://www.youtube.com/playlist?list=PLPjEEUWIWhQV7X6dXfrVP3w0KBBLBVJ0j
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni
Paper: https://arxiv.org/abs/2504.19874v1
Review: https://arxiviq.substack.com/p/turboquant-online-vector-quantization
Code: N/A + Unofficial
Model: N/A
# TL;DR
ЧТО сделали: Исследователи из Google и NYU представили TurboQuant — двухэтапный алгоритм векторного квантования, не зависящий от данных (data-oblivious). Он достигает почти оптимальных показателей искажения за счёт случайного вращения многомерных векторов для создания стабильного бета-распределения, применения оптимального скалярного квантования и использования однобитного скетча на остатках для гарантии несмещённой оценки скалярного произведения.
ПОЧЕМУ это важно: Для AI-инфраструктуры, упирающейся в память, традиционная офлайн-предобработка и зависящие от данных кодовые книги (как в k-means) создают серьёзное узкое горлышко.
Для практиков: Алгоритм работает "из коробки" как векторизованная альтернатива индексации с нулевым оверхедом, позволяя агрессивно сжимать KV-кэши LLM и масштабные векторные базы данных без просадок качества в long-context задачах или RAG-пайплайнах.
Квантовать тут: /channel/gonzo_ML_podcasts/3627
Слаб наш алайнмент!
A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
Hamid Kazemi, Atoosa Chegini, Maria Safi
Статья: https://arxiv.org/abs/2605.08513v1
Ревью: https://arxiviq.substack.com/p/a-single-neuron-is-sufficient-to
# TL;DR
ЧТО сделали:
Исследователи из Apple показали, что механизмы безопасности (safety alignment) в современных LLM завязаны на отдельные, изолированные MLP-нейроны, а не распределены по всей сети. Найдя всего один «нейрон отказа» (refusal neuron) и вмешавшись в его работу, авторы успешно обошли все защитные барьеры. И наоборот: усиление всего одного «нейрона концепта» заставило модель генерировать вредоносный контент в ответ на абсолютно безобидные промпты.
ПОЧЕМУ это важно:
Это открытие ломает устоявшееся мнение, что стандартные методы вроде RLHF или файнтюнинга создают надёжную, распределённую систему безопасности. Тот факт, что у защитного периметра модели есть единая точка отказа, обнажает серьёзную архитектурную уязвимость. Это значит, что нужны принципиально новые парадигмы алаймента, которые будут по-настоящему распределять знания о безопасности по сети, делая её устойчивой к точечным white-box вмешательствам.
Для практиков:
Статья подсвечивает критическую уязвимость в современных frontier и открытых моделях. Несмотря на миллионы параметров, задействованных в файнтюнинге для безопасности, реальный механизм блокировки вредоносных запросов схлопывается до одного-единственного нейрона. Причём это касается не только отказов: базовые вредоносные знания точно так же изолированы в конкретных «нейронах концептов». Выходит, что текущее обучение безопасности не затирает опасные способности и не формирует надёжных этических представлений. Оно лишь натягивает хрупкую «растяжку», завязанную на один компонент, которую элементарно обойти на инференсе.
Выравниваться тут: /channel/gonzo_ML_podcasts/3608
Картинка с геораспределением аффилиаций на последнем ICLR 2026
https://x.com/konstantdobler/status/2053098441069216113
Сейчас по сети ходит также другая картинка (https://github.com/DmytroLopushanskyy/iclr2026-affiliations), но как я понимаю эта вторая фильтрует top-50 institutions из-за чего EU + Япония не представлены на графике, что неверно.
Новый закон скейлинга для байтов вместо токенов. 60 байт на параметр.
Compute Optimal Tokenization
Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer
Paper: https://arxiv.org/abs/2605.01188v1
Code: https://co-tok.github.io
Review: https://arxiviq.substack.com/p/compute-optimal-tokenization
Model: N/A
# TL;DR
ЧТО сделали: Авторы систематически вывели законы скейлинга (neural scaling laws) с учётом сжатия информации. Для этого они обучили почти 1300 моделей, чтобы понять, как гранулярность информации (байты на токен) влияет на оптимальное распределение вычислительных ресурсов.
ПОЧЕМУ это важно: Работа доказывает, что общепринятая эвристика масштабирования моделей (20 токенов на параметр) — это просто артефакт конкретных сабворд-токенизаторов. Переход к независимым от токенизатора законам на основе байтов даёт надёжный фреймворк для максимизации эффективности вычислений на разных языках и модальностях.
Для практиков: Для команд, оптимизирующих масштабное предобучение, токенизация часто выглядит как статичный шаг препроцессинга. Эта статья предлагает смотреть на токенизацию как на динамическую переменную масштабирования. Оптимизируя степень сжатия (информационную плотность), авторы показывают, что объём обучающих данных должен масштабироваться пропорционально параметрам модели в *байтах*, а не в токенах. Кроме того, оптимальная степень сжатия зависит от доступных вычислений: чем больше бюджет FLOPs, тем меньшее сжатие требуется. Это даёт новый чертёж для сборки сверхэффективных мультиязычных foundation-моделей.
Изучать законы здесь: /channel/gonzo_ML_podcasts/3587
Новые ядра и формат упаковки для _неструктурированной_ разреженности от Sakana + NVIDIA.
Sparser, Faster, Lighter Transformer Language Models
Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones
Статья: https://arxiv.org/abs/2603.23198
Код: https://github.com/SakanaAI/sparser-faster-llms
Ревью: https://arxiviq.substack.com/p/sparser-faster-lighter-transformer
# TL;DR
ЧТО сделали: Авторы представили аппаратно-ориентированный фреймворк, который ускоряет LLM за счет использования неструктурированной разреженности активаций. Они разработали новый формат упаковки в памяти (TwELL), динамические гибридные представления для этапа обучения и набор кастомных CUDA-ядер, которые бесшовно объединяют материализацию разреженных данных с вычислениями.
ПОЧЕМУ это важно: Исследование решает фундаментальный боттлнек современных ИИ-систем: парадокс, при котором теоретически более дешевые умножения разреженных матриц на GPU работают медленнее плотных из-за неоптимальных паттернов доступа к памяти. Подход доказывает, что 99% неструктурированную разреженность можно конвертировать в >20% реального ускорения (wall-clock speedup) без перекройки архитектуры.
Для практиков: Фреймворк позволяет использовать стандартную L₁-регуляризацию для создания разреженности и легко интегрируется как drop-in replacement слой ускорения для существующих моделей. На выходе получаем снижение пикового потребления памяти до 28% и расхода энергии на 17% без потерь в качестве.
Разреживать тут: /channel/gonzo_ML_podcasts/3562
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut. И даже на моём примере с UT+memory в решении задач судоку модель скейлится сильно за пределы количества итераций, на котором она обучалась, и продолжает улучшать результат.
В общем, я лично жду появления реально больших моделей с такими свойствами. Наверняка, конечно, в сочетании с другими современными улучшениями — sparse MoE, mHC, низкоразрядным обучением и квантованием (ещё лучше для edge!). В своём прогнозе на 2026 я как-то невнятно про рекуррентность написал, одним словом просто, но теперь исправляюсь!
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.
Learning to Forget: Continual Learning with Adaptive Weight Decay
Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2604.27063v1
Код: https://github.com/Aditya-Ramesh-10/Fade
Ревью: https://arxiviq.substack.com/p/learning-to-forget-continual-learning
# TL;DR
ЧТО сделали:
Авторы предлагают Forgetting through Adaptive DEcay (FADE) — online-алгоритм метаобучения (meta-learning), который назначает динамический коэффициент weight decay (затухания весов) индивидуально для каждого параметра сети. Используя forward-mode дифференцирование, FADE избирательно регулирует скорость, с которой конкретные веса забывают прошлые состояния, на основе ошибки предсказания.
ПОЧЕМУ это важно:
В сценариях continual learning с нестационарными потоками данных и конечной емкостью модели возникает дилемма стабильности-пластичности (stability-plasticity trade-off). Стандартный скалярный weight decay работает как глобальный регуляризатор, равномерно стирая как устаревшие отображения, так и стабильные знания. FADE решает эту проблему, автоматизируя разумное забывание для каждого параметра. Это существенно повышает качество работы и предотвращает потерю пластичности без усложнения архитектуры.
Для практиков:
Статья предлагает крайне эффективный метод с вычислительной сложностью O(d) для автоматизации попараметрического забывания в нейросетях. Превращая weight decay из статического штрафа в динамический механизм, алгоритм вдвое снижает ошибку отслеживания (tracking error) по сравнению со стандартными оптимизаторами вроде AdamW. Это фундаментальная техника для агентов с ограниченной емкостью, работающих в средах с непрерывным обучением, где границы задач неизвестны, а данные полностью нестационарны.
Подзабывать здесь: /channel/gonzo_ML_podcasts/3536
Хитроумный Одиссей.
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
Статья: https://arxiv.org/abs/2605.00347
Код: https://odysseus-project.github.io/
Ревью: https://arxiviq.substack.com/p/odysseus-scaling-vlms-to-100-turn
# TL;DR
ЧТО сделали: Авторы представили Odysseus — открытый фреймворк обучения с подкреплением (RL), который позволяет масштабировать Vision-Language Models (VLM) на задачи непрерывного принятия решений длиной более 100 шагов взаимодействия. Спарив огромную VLM-политику с крошечным CNN-критиком и применив фильтрацию положительных преимуществ (positive-advantage filtering), исследователи обходят вычислительные боттлнеки и нестабильность традиционных мультимодальных actor-critic методов.
ПОЧЕМУ это важно: Текущий RL-файнтюнинг для фундаментальных моделей обычно буксует на горизонте в 20–30 шагов или полностью опирается на чистое имитационное обучение. Работа даёт вычислительно подъёмный рецепт превращения пассивных рассуждающих моделей (reasoning models) в надёжных embodied-агентов. Делегирование распределения награды во времени крошечному «зрительному» критику позволяет стабильно обучать VLM на сотни шагов плотного взаимодействия со средой.
Смотреть тут: /channel/gonzo_ML_podcasts/3511
Не все йогурты репрезентации одинаково полезны!
Convergent Evolution: How Different Language Models Learn Similar Number Representations
Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia
Paper: https://arxiv.org/abs/2604.20817
Model: https://hf.co/collections/deqing/convergent-evolution
Review: https://arxiviq.substack.com/p/convergent-evolution-how-different
# TL;DR
ЧТО сделали:
Авторы систематически исследуют, почему разнообразные языковые модели естественным образом вырабатывают периодические репрезентации для числовых токенов. Они выделяют двухуровневую иерархию, отделяющую «спектральную сходимость» (универсальное появление Фурье-всплесков в пространстве эмбеддингов) от «геометрической сходимости» (функциональной способности линейно классифицировать числа по модулю периода).
ПОЧЕМУ это важно:
Эта работа вводит критически важную теоретическую проверку для механистической интерпретируемости. Она доказывает, что визуально заметные структуры в пространстве репрезентаций модели не гарантируют выучивания функционального алгоритма. Это ставит под сомнение гипотезу о том, что общие статистические артефакты автоматически означают общие способности к рассуждению.
Для практиков:
Часто периодические паттерны в эмбеддингах LLM трактуются как доказательство того, что модель освоила модульную арифметику. Статья показывает, что эти Фурье-сигнатуры — лишь повсеместный артефакт частотностей токенов датасета. Они появляются даже в классических эмбеддингах или в сырых, необученных распределениях данных. При этом настоящая функциональность, измеряемая линейной разделимостью классов вычетов, возникает избирательно и только тогда, когда архитектура, оптимизатор и данные о совместной встречаемости текста и чисел работают согласованно. Описывая этот феномен как форму «конвергентной эволюции», авторы предлагают строгий фреймворк, позволяющий отличить поверхностную статистическую мимикрию от реального функционального выучивания фичей.
Полезные и бесполезные репрезентации тут: /channel/gonzo_ML_podcasts/3487
Попалась свежая интересная репа, собирающая всё про UT/Looped Models
https://github.com/huskydoge/Awesome-Loop-Models
И снова Universal/Looped Transformers. На этот раз для генерации изображений. Один из главных selling point, что модель целиком вмещается в кеш ускорителя, не надо перекачивать постоянно веса из обычной памяти.
ELT: Elastic Looped Transformers for Visual Generation
Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
Paper: https://arxiv.org/abs/2604.09168
Review: https://arxiviq.substack.com/p/elt-elastic-looped-transformers-for
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Elastic Looped Transformers (ELT) — рекуррентную архитектуру для генерации изображений, которая крайне экономно расходует параметры. Модель итеративно применяет один и тот же блок трансформерных слоёв с общими весами и обучается с помощью нового алгоритма Intra-Loop Self Distillation (ILSD). Это позволяет динамически менять вычислительный бюджет (количество циклов) прямо на инференсе без переобучения.
ПОЧЕМУ это важно:
Подход отвязывает количество параметров генеративной модели от её вычислительной глубины. ELT умещается целиком в быстрой накристальной памяти (SRAM) ускорителя, обходя «стену памяти» — медленную передачу данных из HBM. Метод выдаёт качество картинки на уровне SOTA, при этом используя в 4 раза меньше параметров. Это даёт удобный рычаг управления вычислениями на инференсе: от слабых edge-устройств до мощных облачных серверов.
Для практиков:
Для инженеров, масштабирующих архитектуры визуальной генерации, простое добавление новых трансформерных слоёв даёт убывающую отдачу из-за жёстких бутылочных горлышек при передаче данных. Статья показывает, что рекурсивная глубина архитектуры, если её грамотно регуляризовать для раннего выхода (early exit) через дистилляцию, даёт ту же репрезентативную силу, что и огромные feedforward-сети. В итоге получается модель, которая может динамически прерывать внутренние итерации на инференсе, предоставляя инженерам непрерывный Парето-фронт между задержкой и качеством из одного прогона обучения.
Эластично генерировать тут: /channel/gonzo_ML_podcasts/3462
Больше моделей мира за пределами красивых картинок!
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
Paper: https://arxiv.org/abs/2604.22748
Code: https://github.com/matrix-agent/awesome-agentic-world-modeling
Review: https://arxiviq.substack.com/p/agentic-world-modeling-foundations
# TL;DR
ЧТО сделали: Авторы проанализировали более 400 работ и предложили унифицированную двумерную классификацию моделей мира (уровни × законы). Выделено три иерархических уровня способностей: L1 Предсказатель (одношаговые локальные переходы), L2 Симулятор (многошаговые роллауты с соблюдением ограничений среды) и L3 Эволюционер (автономное обновление модели на основе собранных улик). Эта архитектура пересекается с четырьмя типами законов (физические, цифровые, социальные, научные), которые задают правила для симулируемой среды.
ПОЧЕМУ это важно: Термин "модель мира" (world model) стал слишком размытым — часто под ним ошибочно понимают просто качественную генерацию видео. Строгое определение границ на основе чувствительности к вмешательствам, когерентности на длинных горизонтах и способности к автономному обновлению дает сообществу четкий диагностический инструмент. Фокус смещается с визуального реализма на активное уточнение внутренних законов, прокладывая путь к по-настоящему автономным агентам.
Для практиков: Предложен фреймворк оценки MREP (Minimal Reproducible Evaluation Package), который призывает отказаться от визуальных метрик вроде FVD в пользу метрик, ориентированных на принятие решений (Action Success Rate, Counterfactual Outcome Deviation). Теперь успех измеряется тем, насколько модель полезна для планирования, а не тем, насколько красиво она рисует пиксели.
Моделировать мир тут: /channel/gonzo_ML_podcasts/3436
Красивая история про квантизацию. Как сделать INT4, который нормально работает на текущем железе. И вообще это большая тема про то как делать не просто теоретически эффективные алгоритмы, а такие, которые хорошо работают на практике. Что вообще не одно и то же. Хотите научиться в этом разбираться — читайте все работы с Tri Dao в соавторах.
SAW-INT4: System-AWare 4-Bit KV-Cache Quantization for Real-World LLM Serving
Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu
Paper: https://arxiv.org/abs/2604.19157
Code: https://github.com/togethercomputer/saw-int4
Review: https://arxiviq.substack.com/p/saw-int4-system-aware-4-bit-kv-cache
# TL;DR
ЧТО сделали: Представляют SAW-INT4 — фреймворк для потокенной 4-битной квантизации KV-кэша на основе блочно-диагонального вращения Адамара (Block-Diagonal Hadamard Rotation, BDR). Метод реализован как слитое (fused) CUDA-ядро, полностью совместимое с современными страничными структурами памяти (paged-memory layouts). Это позволяет достичь почти lossless 4-битного сжатия без падения пропускной способности, типичного для сложных техник квантизации.
ПОЧЕМУ это важно: В продакшене при работе с длинным контекстом (миллионы токенов) пропускная способность памяти и её объём становятся жёстким ограничителем для масштабирования. Эта работа показывает, что алгоритмические успехи в сжатии теряют смысл, если они нарушают аппаратные ограничения — например, ломают coalesced доступ к памяти или непрерывный батчинг. Ставя системную совместимость выше теоретической репрезентативной ёмкости, исследователи дают рецепт для двукратного увеличения вместимости одновременного инференса.
Для практиков: Управление KV-кэшем остаётся инфраструктурной болью при деплое LLM. Хотя многие стратегии сжатия показывают впечатляющую точность офлайн, их нерегулярный паттерн доступа к памяти уничтожает пропускную способность железа. Статья доказывает, что легковесная статическая математическая ротация компенсирует деградацию точности наивной INT4-квантизации и добавляет ровно ноль задержек. Эффективное сжатие KV-кэша — это в первую очередь задача системного кодизайна.
Квантовать тут: /channel/gonzo_ML_podcasts/3418