23724
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Ризонинг работает не так, как мы думали! Всё дело в волшебных пузырьках в голосах в голове. Оказывается, там внутри создаются разные перспективы, которые в диалоге приходят в лучшему заключению.
Reasoning Models Generate Societies of Thought
Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans
Статья: https://arxiv.org/abs/2601.10825
Ревью: https://arxiviq.substack.com/p/reasoning-models-generate-societies
# TL;DR
ЧТО сделали: Авторы показали, что современные рассуждающие модели (reasoning models, такие как DeepSeek-R1 и QwQ-32B) не просто выполняют длинные вычисления, а неявно симулируют «общество мыслей» — мультиагентный диалог с различными внутренними персонами, конфликтами и примирением. С помощью методов механистической интерпретируемости и RL-абляций исследование демонстрирует, что стиринг (управление) моделей в сторону диалогового поведения напрямую повышает точность рассуждений.
ПОЧЕМУ это важно: Работа переосмысляет парадигму Chain of Thought (CoT): от линейного закона масштабирования вычислений мы переходим к феномену социального масштабирования. Эффективность вычислений на инференсе (test-time compute) механистически обусловлена способностью модели создавать разнообразные, состязательные перспективы внутри своего пространства активаций. Это открывает новый путь для AI alignment: оптимизация внутренней когнитивной разнородности, а не только корректности финального ответа.
Подробнее: /channel/gonzo_ML_podcasts/2130
Ну и вот вам воскресной эзотерики про Бильярдный компьютер. Выводы не перепроверял, поверю на слово.
Что в этом прикольно? С одной стороны прикольно, что "бильярд" вообще может вычислять. Хотя, если рассматривать работу всей вселенной как непрерывное вычисление, то это может и неудивительно :) Да и от машины Тьюринга, построенной в игре Жизнь, это тоже не особо отличается.
Интересно, что наравне с хаосом, когда предсказать что-то нельзя из-за ограничений точности, есть также совершенно иные лимиты предсказания прям по Тьюрингу, аналогично проблеме останова.
И ещё интересна предложенная конструкция, где вся сложность зашита в конструкцию стен. Всё время вспоминаю Герберта Саймона и его книгу "Наука об искусственном" с цитатой:
«Муравей, рассматриваемый как поведенческая система, довольно прост. Видимая сложность его поведения со временем во многом является отражением сложности среды, в которой он себя обнаруживает».
Classical billiards can compute
Eva Miranda and Isaac Ramos
Статья: https://arxiv.org/abs/2512.19156
Ревью: https://arxiviq.substack.com/p/classical-billiards-can-compute
# TL;DR
ЧТО сделали: Строго доказали, что одиночная частица внутри двумерного бильярдного стола с фиксированными многоугольными стенками обладает Тьюринг-полнотой. Адаптировав фреймворк Topological Kleene Field Theory, авторы сконструировали конфигурацию стола, где траектория шара симулирует эволюцию любой обратимой машины Тьюринга.
ПОЧЕМУ это важно: Это закрывает пробел в физическом тезисе Чёрча-Тьюринга. Ранее считалось, что простые низкоразмерные системы не способны к универсальным вычислениям (гипотеза Мура). Работа показывает, что алгоритмическая неразрешимость — фундаментальное свойство даже стандартной 2D гамильтоновой механики. Предсказать, станет ли траектория периодической или достигнет ли целевой зоны, алгоритмически невозможно, и это ограничение жестче, чем просто хаос.
Подробнее: /channel/gonzo_ML_podcasts/2114
в тему шортс с MLST
https://www.youtube.com/shorts/z7X-Zc9JTys
Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и копировали лишь небольшие куски кода, вставляя их куда попало. Это была хаотическая фаза, когда всё выглядит пока как рандом, но количество вычислений начинает расти. В статье ещё был этап отравления супа нулями из-за некачественных репликаторов. Плохонькие репликаторы соревнуются друг с другом, а также участвуют в симбиотических событиях. Трассировка происхождения отдельных байт в супе может помочь увидеть, что в нём происходит. Тут есть прикольное новое видео про происхождение отдельных байт в экосистеме.
Хаотическая фаза является потенциальным котлом для запуска направленной эволюции и не длится долго. Запускается экспонента и происходит захват супа. В этой главе книги есть сколько-то размышлений про игрушечную вселенную bff и как это потенциально переносится на жизнь на Земле или других планетах.
Интересные выводы из bff
1. Симбиогенез важнее случайных мутаций.
2. Сложные реплицирующиеся штуки возникают после простых.
3. Под-репликаторы внутри репликаторов дают заглянуть в прошлое.
4. Первый настоящий репликатор является “event horizon” уничтожая следы несовершенных репликаторов, бывших до него.
5. Эволюционировавший код должен не только содержать инструкции своей репликации, но и быть наполнен подпоследовательностями с инструкциями для независимой саморепликации.
6. Если симбиоз между этими частями создал новизну движущую эволюцию в целом, мы должны видеть в геноме следы множества сломанных или неполных под-репликаторов
7. Код, эволюционировший через такую иерархическую симбиотическую репликацию должен содержать множество повторяющихся последовательностей или копий других частей.
Это всё классно перекликается с вирусным миром и наличием в нашей ДНК огромного количества мобильных элементов, транспозонов и вирусной ДНК. У нас тоже есть куча под-репликаторов внутри генома.
Вся эта структура со вложенными само-репликаторами несколько напоминает фрактал или скорее мультифрактал. Когда суп переходит к репликации полных лент, сжимаемость лент увеличивается.
Композиционность, иерархичность и рекурсия есть как на уровне генома, так и тела. У нас нет отдельных генов на каждое из рёбер, построение ребра является аналогом “процедуры/функции” в языке программирования и этот код многократно переиспользуется. В этом смысле жизнь вполне вычислительная, эволюция создаёт реальные программы, переиспользующие код.
В конечном счёте автор предлагает своё определение жизни:
Life is self-modifying computronium arising from selection for dynamic stability; it evolves through the symbiotic composition of simpler dynamically stable entities.
И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то объединили на основе теоретико-группового подхода.
Вероятно, мы переходим в более зрелый режим выбора позиционок, не просто хаки и эвристики, а дизайн под задачу.
Group Representational Position Encoding
Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
Статья: https://arxiv.org/abs/2512.07805
Код: https://github.com/model-architectures/GRAPE
Ревью: https://arxiviq.substack.com/p/group-representational-position-encoding
# TL;DR
ЧТО сделали: Авторы представили GRAPE (Group Representational Position Encoding) — унифицированный фреймворк, который выводит позиционные кодировки из действий групп. Формализуя позиции как элементы группы Ли, действующей на пространстве репрезентаций токенов, GRAPE объединяет два разрозненных семейства: мультипликативные вращения (воспроизводит RoPE через группу SO(d)) и аддитивные смещения (воспроизводит ALiBi и Forgetting Transformer через унипотентные действия в GL(d+k)).
ПОЧЕМУ это важно: Работа переводит дизайн позиционных кодировок из области инженерных эвристик в строгую алгебраическую структуру. Показано, что привычные методы вроде RoPE и ALiBi — это просто частные случаи более широкой формулировки через генераторы. Критически важно, что авторы предложили эффективные формулы матричных экспонент для обучаемых подпространств (допуская некоммутирующие вращения) и доказали, что механизмы "забывания" в длинном контексте математически эквивалентны аддитивным действиям группы. Это даёт принципиально новый фундамент для проектирования контекстно-зависимых архитектур следующего поколения.
Подробнее: /channel/gonzo_ML_podcasts/2103
В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE. Недавно писали про DroPE, сегодня про PoPE.
Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding
Anand Gopalakrishnan, Robert Csordás, Jürgen Schmidhuber, Michael C. Mozer
Статья: https://arxiv.org/abs/2509.10534
Ревью: https://arxiviq.substack.com/p/decoupling-the-what-and-where-with
# TL;DR
ЧТО сделали: Предложили PoPE (Polar Coordinate Position Embedding) — замену ставшему индустриальным стандартом RoPE. Новый метод явно разделяет магнитуду признаков («что») и фазу («где») через формулировку в полярных координатах. В отличие от RoPE, который вращает пары декартовых координат, PoPE трактует каждую размерность как магнитуду и присваивает ей строго зависимую от позиции фазу. Это устраняет математическую интерференцию между контентом и позиционной информацией в механизме внимания.
ПОЧЕМУ это важно: Архитектурный сдвиг даёт значительное улучшение в zero-shot экстраполяции длины без сложной интерполяции частот или файнтюнинга (в отличие от методов типа YaRN, https://arxiv.org/abs/2309.00071). Теоретически авторы находят и исправляют «сцепленность» (entanglement) в RoPE, где контент векторов query и key непреднамеренно сдвигал кодирование относительной позиции. Эмпирически это решает специфические алгоритмические задачи (например, арифметику указателей), на которых RoPE полностью проваливается, и улучшает перплексию на стандартных бенчмарках.
Подробнее: /channel/gonzo_ML_podcasts/2084
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем результат. Ну map-reduce фактически, только пока особо без распараллеливания.
Recursive Language Models
Alex L. Zhang, Tim Kraska, Omar Khattab
Статья: https://arxiv.org/abs/2512.24601
Ревью: https://arxiviq.substack.com/p/recursive-language-models
Код: пока нет
# TL;DR
ЧТО сделали: Авторы предложили Recursive Language Models (RLMs) — подход, где входные данные не подаются в модель целиком, а хранятся как переменная во внешней среде (Python REPL). Модель пишет код, чтобы инспектировать данные, нарезать их на куски и рекурсивно вызывать копии самой себя для обработки конкретных фрагментов.
ПОЧЕМУ это важно: Это лечит «context rot» (деградацию качества на длинном контексте), от которой страдают даже флагманы вроде GPT-5 при высокой плотности информации. Использование кода для управления данными и рекурсии для локальных рассуждений позволяет работать с контекстом в 10М+ токенов (на два порядка выше текущих лимитов), часто снижая стоимость инференса по сравнению с чтением всего контекста сразу.
Подробнее: /channel/gonzo_ML_podcasts/2076
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
Статья: https://arxiv.org/abs/2601.05242
Код: https://github.com/NVlabs/GDPO
Ревью: https://arxiviq.substack.com/p/gdpo-group-reward-decoupled-normalization
# TL;DR
ЧТО сделали: Выявили критический недостаток в популярном методе GRPO (https://arxiv.org/abs/2402.03300) при обучении с несколькими наградами. Авторы из NVIDIA предлагают GDPO — метод, меняющий порядок действий: вместо суммирования наград перед нормализацией, GDPO сначала нормализует каждый сигнал (например, за корректность, формат, краткость) независимо внутри группы, и только потом агрегирует их.
ПОЧЕМУ это важно: Это устраняет «коллапс сигнала награды», когда разные комбинации сырых баллов дают одинаковые оценки преимущества (advantage), из-за чего модель перестаёт различать качество выполнения отдельных подзадач. GDPO позволяет стабильно обучать модели (уровня DeepSeek-R1 или Qwen2.5) в сложных сценариях, требующих одновременного соблюдения жесткого формата, лимита токенов и правильности рассуждений — там, где обычный GRPO часто сходится к субоптимальным решениям.
Подробнее: /channel/gonzo_ML_podcasts/2058
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol. Это в дополнение к уже имеющимся AP2 (Agent Payments Protocol) для платежей, и интеграционным A2A и MCP.
https://ucp.dev/
Агенты для коммерции уже рядом. Не надо отдельных интеграций под каждую платформу, удобный дискавери для агентов (чтоб не парсить страницы), простой чекаут с покупкой в один клик, и видимо возможность купить что-то сразу в AI-выдаче.
DeepSeek разошёлся. Молодцы.
https://github.com/deepseek-ai/Engram
Любопытная работа про генерацию компактных латентов из многомерных картиночных эмбеддингов.
One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
Статья: https://arxiv.org/abs/2512.07829
Ревью: https://arxiviq.substack.com/p/one-layer-is-enough-adapting-pretrained
# TL;DR
ЧТО сделали: Представили FAE (Feature Auto-Encoder) — фреймворк, сжимающий тяжелые репрезентации из замороженных визуальных моделей (вроде DINOv2 или SigLIP) в компактные латенты для генеративных моделей. Главная фишка: энкодер состоит всего из одного слоя self-attention и линейной проекции, а уникальная стратегия «двойного декодера» восстанавливает сначала фичи, и лишь потом — пиксели.
ПОЧЕМУ это важно: Это элегантно решает проблему несовпадения размерностей между фичами «для понимания» (высокоразмерные, избыточные) и «генеративными» латентами (компактные), не требуя костылей в виде сложных лоссов выравнивания. Диффузионные модели с FAE сходятся в 7–13 раз быстрее бейзлайнов и выдают SOTA FID (1.29 на ImageNet 256). Работа доказывает, что для моста между дискриминативными и генеративными парадигмами достаточно минимальной адаптации.
Подробнее: /channel/gonzo_ML_podcasts/2013
Если ещё не видели фильм про DeepMind, то он неплохой. Показывает людей за всеми их достижениями. Приятно было увидеть много знакомых имён, да и сколько-то лиц тоже :)
https://youtu.be/d95J8yzvjbQ
Продолжение темы про эволюцию кода. Теперь Sakana опубликовала работу на базе старого доброго Redcode.
https://pub.sakana.ai/drq/
Ай молодец, хорошо нагаллюцинировал!
"Работа даёт теоретический пинок любителям «инженерного шаманизма». Качество сжатия (измеряемое через MI) — главный рычаг производительности.
Для строителей RAG и агентов это сигнал: хватит мучить промптами финальную модель. Оптимизируйте ingestion (первичную обработку) на краю (edge). Мощные компрессоры на ноутбуках и телефонах, отправляющие в облако концентрированные «векторы мыслей» (текстовые саммари), — это путь к приватным и дешевым агентам нового поколения."
An Information Theoretic Perspective on Agentic System Design
Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
Статья: https://arxiv.org/abs/2512.21720
Ревью: https://arxiviq.substack.com/p/an-information-theoretic-perspective
# TL;DR
ЧТО сделали: Авторы формализовали дизайн многошаговых агентных систем (типа Deep Research) через теорию информации, представив этап суммаризации как передачу сигнала через шумный канал. Предложили способ оценки взаимной информации (Mutual Information, MI), чтобы понять, насколько хорошо модель-«компрессор» сохраняет контекст для модели-«предиктора».
ПОЧЕМУ это важно: Исследование ломает стереотип «всё решат гигантские модели на последнем шаге». Оказывается, выгоднее вкладываться в компрессор: 7B-модель для сжатия в паре с небольшим предиктором часто бьёт огромные end-to-end модели. Практически это значит, что локальная 3B-модель на ноутбуке может сжимать данные, сохраняя 99% точности SOTA-пайплайнов, но срезая косты API на 74%.
Подробнее: /channel/gonzo_ML_podcasts/1959
ИИ для демократии.
Can AI Mediation Improve Democratic Deliberation?
Michael Henry Tessler, Georgina Evans, Michiel A. Bakker, Iason Gabriel, Sophie Bridgers, Rishub Jain, Raphael Koster, Verena Rieser, Anca Dragan, Matthew Botvinick, and Christopher Summerfield
Статья: https://arxiv.org/abs/2601.05904
Код: https://github.com/google-deepmind/habermas_machine
Ревью: https://arxiviq.substack.com/p/can-ai-mediation-improve-democratic
# TL;DR
ЧТО сделали: Исследователи Гугла представили «Машину Хабермаса» (Habermas Machine, HM) — систему на стыке генеративных LLM и теории социального выбора для модерации групповых дискуссий. В отличие от стандартных суммаризаторов, HM генерирует кандидатов на «групповое заявление» и использует персонализированную Reward Model для симуляции выборов. Побеждает утверждение, которое максимизирует предсказанное одобрение участников по методу Шульце.
ПОЧЕМУ это важно: Работа предлагает техническое решение «Трилеммы Фишкина», согласно которой демократия не может одновременно обеспечивать массовое участие, политическое равенство и глубину обсуждения. HM автоматизирует поиск точек соприкосновения и использует иерархическую агрегацию, позволяя масштабировать качественную делиберацию на тысячи участников — задачу, ранее непосильную для модераторов-людей.
Подробнее: /channel/gonzo_ML_podcasts/2125
Длинная версия тут
https://www.youtube.com/watch?v=rMSEqJ_4EBk
Provenance of individual bytes on tapes in a bff soup after 10,000, 500,000, 1.5 million, 2.5 million, 3.5 million, 6 million, 7 million, and 10 million interactions. The increasing role of self-modification in generating novelty is evident, culminating in the emergence (just before 6 million interactions) of a full-tape replicator whose parts are modified copies of a shorter imperfect replicator.
Читать полностью…
Map of the spread of the BovB and L1 retrotransposons across 759 species of eukaryotes
Читать полностью…
What is Life? Blaise Agüera y Arcas
Книга: https://mitpress.mit.edu/9780262554091/what-is-life/
Прочитал книгу “What is Life? Evolution as Computation” от Blaise Agüera y Arcas, одного из соавторов работы про вычислительную жизнь (/channel/gonzo_ML/4369), которую мы разбирали недавно. Книга прикольная, больше популярная, чем научная, довольно сильно построена вокруг результатов той самой статьи, и здесь автор позволяет себе порассуждать намного шире в разные стороны.
Сама книга в свою очередь является частью ещё более широкой книги “What is Intelligence”. Matryoshkas are everywhere. Что приятно, последняя книга доступна в открытом доступе и “What is Life” там можно прочитать как первую главу.
В целом книга фокусируется на вопросе про связь жизни и вычислений, и начинает она издалека, с абиогенеза, а также обратного цикла Креббса, который мог синтезировать первую нужную органику. Далее автор переходит к симбиогенезу, который даёт эволюции гораздо более широкое поле для действия, чем базовые мутации -- они могут файнтюнить, оптимизировать и добавлять разнообразия, но симбиогенез открывает новые комбинаторные пространства и вносит в эволюцию революционность.
По мнению автора, computer science занимает значимое место в понимании жизни. И Тьюринг, и фон Нейман, изначально видели много параллелей между компьютерами и мозгами, а к концу жизни оба пришли ещё ближе к биологии -- морфогенез и паттерны реакции-диффузии у Тьюринга, и самореплицирующиеся автоматы и универсальный конструктор у фон Неймана. Интересный факт, который я не знал -- что Тьюринг настоял на включении в компьютер Ferranti Mark I инструкции для случайных чисел. Фон Нейману, понятное дело, мы среди прочего обязаны архитектурой современных компьютеров имени его же.
Глава про Artificial Life рассказывает про результаты той статьи с Brainfuck (bff). Здесь есть новые картинки, которых не было в оригинальной статье: про скачкообразный рост количества вычислений и про количество кодирующих байт на ленте.
Термодинамика, которая долгое время была чисто практической дисциплиной, далеко не сразу получила научный аппарат, описывающий и объясняющий работу тепловых машин. Современный ИИ, кажется, в похожей ситуации. Для изучения искусственной жизни bff, возможно, является подходящим модельным объектом, аналогично бильярдным шарам, выступавшим моделью столкновений молекул идеального газа. Про бильярдные шары, кстати, вышла недавно прикольная статья, бахну автообзор скоро.
Почему происходит усложнение в среде? Это как бы нарушает второй закон термодинамики. Репликаторы возникают в bff потому, что сущность, которая репродуцируется, является более динамически стабильной. Пассивный объект, каким бы крепким он не был, является хрупким (в смысле fragile), в то время как репродуцируемый паттерн -- anti-fragile. Пока ДНК или ещё что-то может реплицироваться, паттерн вечен. Дарвиновский отбор в термодинамических терминах является эквивалентом Второго закона, если рассматривать популяции репликаторов -- более эффективный репликатор более стабилен, чем менее эффективный. Унификация термодинамики с теорией вычислений может помочь понять жизнь как предсказуемый исход статистического процесса. В нашей модельной среде, если возможны вычисления, то репликаторы будут динамическим атрактором, потому что они более динамически стабильны.
Симбиогенез приводит к усложнению репликаторов. В статье репликатор собрался из более простых кусочков кода в результате симбиотических событий. Судя по по графикам, в супе случился exponential takeoff. С появлением настоящего репликатора приходит и существенный прогресс в evolvability. Теперь всё, что не ломает код копирования, наследуется, и классический Дарвиновский отбор имеет возможность запуститься.
В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++.
Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
Статья: https://arxiv.org/abs/2512.07525
Код: https://github.com/OpenMOSS/rope_pp
Ревью: https://arxiviq.substack.com/p/beyond-real-imaginary-extension-of
# TL;DR
ЧТО сделали: Авторы предложили RoPE++ — модификацию стандартных Rotary Position Embedding (RoPE). Ключевая идея: перестать выбрасывать мнимую часть комплексного числа при расчёте внимания. Разделив головы внимания на "реальные" (локальная семантика) и "мнимые" (глобальная позиция), исследователи улучшили работу с длинным контекстом. Бонусом предложили конфигурацию, которая сохраняет качество, но сокращает размер KV-кэша в два раза.
ПОЧЕМУ это важно: RoPE — де-факто стандарт в LLM (Llama 3, Qwen 2), но математически он отбрасывает половину позиционной информации (фазу) во время скалярного произведения. RoPE++ доказывает, что эта "мнимая" информация ведёт себя как интегральный синус, который, в отличие от косинуса, позволяет модели эффективно работать на длинных дистанциях. Это теоретически обоснованный способ улучшить ризонинг на огромных контекстах без роста числа параметров.
Очень перекликается с более ранней работой про PoPE Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding. Опять Шмидхубера не цитируют!!!
Подробнее: /channel/gonzo_ML_podcasts/2093
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.
7 умножений вместо 8. Что это возможно — известно с 1980 (Winograd), но явной конструкции не было.
Любопытно, что это не перебор разных разложений (как делал AlphaTensor), а подход со стороны математики. В поле рациональных чисел лучше 8 умножений не получается, здесь перешли в расширенное поле Q(√5).
Точные детали AI-системы неизвестны, в статье только про математический результат.
Полнится AI-generated research.
Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей медленнее чем у популярного RoPE. Текущая работа приписывает это инициализации с малой дисперсией (логичным, кстати, был бы после этого NoPE с иной инициализацией с большой дисперсией, интересно сравнить). Авторы предложили метод, когда на этапе обучение делаем RoPE, а потом их убираем и слегка адаптируем модель. Профит! Всё работает, экстраполяция на большие длины хороша.
Но самое красивое в этой истории для меня вот что: мы переходим к новому подходу к обучению, когда позиционки выступают частью curriculum'а и меняются по ходу обучения. Ранее вся динамика обучения со стороны архитектуры, а не данных в основном концентрировалась вокруг расписаний для learning rate, ну может ещё где-то по мелочи. Теперь вот позиционки становятся изменяемой частью. Может со временем и вся архитектура будет такой, ну либо с каким-то фундаментом или бэкбоном, вокруг которого всё нарастает в процессе обучения. Какие-то примеры такого в целом уже встречаются.
Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
Yoav Gelberg, Koshi Eguchi, Takuya Akiba, Edoardo Cetin
Статья: https://arxiv.org/abs/2512.12167
Код: https://github.com/SakanaAI/DroPE
Блог: https://pub.sakana.ai/DroPE/
Ревью: https://arxiviq.substack.com/p/extending-the-context-of-pretrained
# TL;DR
ЧТО сделали: Авторы предложили метод DroPE (Dropping Positional Embeddings). Идея — использовать стандартные Rotary Positional Embeddings (RoPE) на этапе предобучения для быстрой сходимости, а затем полностью выкинуть их и провести короткую фазу «рекалибровки» на исходной длине контекста. В итоге модель превращается в NoPE (без позиционных эмбеддингов).
ПОЧЕМУ это важно: Работа ставит под сомнение догму о том, что явные позиционки необходимы на инференсе. DroPE позволяет моделям обобщаться в zero-shot режиме на длины, в разы превышающие окно обучения (например, эффективная работа на 8k+ при обучении на 2k). Это избавляет от деградации качества, свойственной методам вроде YaRN или RoPE-NTK, и устраняет «семантические искажения», возникающие при сжатии низкочастотных компонент.
Подробнее: /channel/gonzo_ML_podcasts/2065
Использование рубрик для RL обучения AI-Scientist'ов
Training AI Co-Scientists Using Rubric Rewards
Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
Статья: https://arxiv.org/abs/2512.23707
Ревью: https://arxiviq.substack.com/p/training-ai-co-scientists-using-rubric
# TL;DR
ЧТО сделали: Предложили масштабируемый фреймворк для обучения LLM генерации строгих планов научных исследований. Вместо дорогого фидбека от людей или несуществующих симуляторов «мокрых» лабораторий, авторы используют существующие научные статьи. Из них извлекаются «Исследовательские цели» и соответствующие «Рубрики оценки» (критерии). Затем политика обучается через Reinforcement Learning (конкретно GRPO), где награду выдаёт модель, оценивающая свои же выходы по этим извлечённым рубрикам.
ПОЧЕМУ это важно: Работа атакует «проблему отсутствия симулятора» в AI for Science. Если для задач типа сворачивания белков (AlphaFold) есть физические ограничения, то для открытого научного планирования вычислимой целевой функции не существует. Формализуя интуицию peer review (проверить план легче, чем придумать), статья показывает, что модели могут самосовершенствоваться в абстрактных задачах на рассуждение, используя привилегированную информацию (истинную рубрику) во время обучения. Это позволило достичь 70% предпочтения по сравнению с бейзлайнами при оценке экспертами.
Подробнее: /channel/gonzo_ML_podcasts/2047
Не будем тянуть с разбором:
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang
Статья: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Код: https://github.com/deepseek-ai/Engram
Ревью: https://arxiviq.substack.com/p/conditional-memory-via-scalable-lookup
# TL;DR
ЧТО сделали: Представили Engram — модуль «условной памяти» (conditional memory), который внедряет огромные статические таблицы эмбеддингов N-грамм прямо в слои трансформера. Авторы отделили хранение знаний от нейронных вычислений и вывели закон распределения разреженности (Sparsity Allocation): замена примерно 20% параметров MoE (Mixture-of-Experts) на такие хеш-лукапы (lookups) значительно улучшает метрики как в задачах на знания, так и в сложном ризонинге.
ПОЧЕМУ это важно: Работа ставит под сомнение парадигму «all-neural». Доказано, что специализированные лукапы эффективнее механизмов внимания для статических паттернов (сущности, идиомы), что позволяет разгрузить головы внимания для реальных рассуждений. Более того, поскольку индексы поиска детерминированы, таблицы памяти можно выгрузить в RAM процессора (CPU) с ничтожной задержкой. Это открывает путь к масштабированию моделей далеко за пределы HBM видеокарт.
Подробнее: /channel/gonzo_ML_podcasts/2032
Перплексия теперь не модно. Эпиплексия модно. Всё на благо ограниченных наблюдателей!
Epiplexity: Quantifying the Structural Value of Data for Bounded Observers
Marc Finzi, Shikai Qiu, Yiding Jiang, Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson
Статья: https://arxiv.org/abs/2601.03220
Ревью: https://arxiviq.substack.com/p/from-entropy-to-epiplexity-rethinking
# TL;DR
ЧТО сделали: Авторы ввели понятие эпиплексии (epiplexity) — новую метрику из теории информации, которая оценивает объём структурной информации, доступной *вычислительно ограниченному* наблюдателю. В отличие от энтропии Шеннона или колмогоровской сложности, подразумевающих бесконечные ресурсы, эпиплексия явно учитывает конечность модели (программы) и процесса обучения (вычислений).
ПОЧЕМУ это важно: Этот фреймворк разрешает старые парадоксы, где теория противоречит практике глубокого обучения — например, почему детерминированные процессы (вроде симуляций или self-play) создают ценный сигнал. Практически это даёт строгую метрику для отбора данных: для предобучения важен не минимум финального лосса (энтропии), а максимум усваиваемой структуры (эпиплексии).
Подробнее: /channel/gonzo_ML_podcasts/2022
Очень интересная работа сразу по множеству параметров.
Во-первых, очередной пример AI for Systems, где автомат находит решения лучше человека (в данном случае лучше по крайней мере равно быстрее, не жертвуя корректностью).
Во-вторых, сам юскейс агента интересен — ему надо работать с железом, про которое не знает базовая LLM, но это решается подачей агенту хорошей документации. Если вместо написания оптимизированных библиотек (cuBLAS, MIOpen) под каждый чих, мы будем приоритезировать исчерпывающую машиночитаемую документацию, то это интересный сдвиг сам по себе. И документация наконец станет объектом первого класса, и может наконец экосистема CUDA пошатнётся.
В-третьих, это ещё и интересная инфа про альтернативное железо. И про ускоритель MTIA интересно, и про то, что Triton перебил по количеству CUDA-ядра по крайней мере в одной экосистеме. Наверняка и у Гугла тоже CUDA ядра не на первом месте, а какой-нибудь Pallas.
Классный кейс, короче.
KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta
Gang Liao, Carole-Jean Wu, Gaoxiang Liu, Hongsen Qin, Ying Wang, Yavuz Yetim, Jia Jiunn Ang, Xiayu Yu, Yihan He, Feng Shi, Zewei Jiang, Chunli Fu, Ruichao Xiao, Dianshi Li, Alicia Golden, Michael Kuchnik, Samuel Hsia, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Hongtao Yu, Wenyuan Chi, Barney Huang
Статья: https://arxiv.org/abs/2512.23236
Ревью: https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel
# TL;DR
ЧТО сделали: Исследователи из Meta представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton (https://triton-lang.org/). Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA от Meta), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных.
ПОЧЕМУ это важно: Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа. Система достигла 100% корректности на бенчмарке KernelBench (https://arxiv.org/abs/2502.10517) и показала ускорение до 17× относительно PyTorch в продакшене. Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных.
Подробнее: /channel/gonzo_ML_podcasts/1993
А вот другой заход на то, что внимание и все эти огромные матрицы не нужны! Здесь переходим к спайкам и отказываемся от линейной алгебры в пользу Lookup таблиц.
Spiking Manifesto
Eugene Izhikevich
Статья: https://arxiv.org/abs/2512.11843
Код: https://github.com/izhikevich/SNN
Ревью: https://arxiviq.substack.com/p/spiking-manifesto
# TL;DR
ЧТО сделали: Юджин Ижикевич (легенда вычислительной нейробиологии) предложил новый фреймворк для спайковых нейросетей (SNN), который отказывается от симуляции мембранных потенциалов в пользу работы с векторами задержек (latencies). Идея заключается в маппинге относительного времени спайков (перестановок) на синаптические веса через таблицы поиска (LUT). Это позволяет полностью выкинуть перемножение матриц (MatMul) из цикла инференса, эффективно «компилируя» архитектуры глубокого обучения — включая трансформеры и RNN — в набор разреженных, эффективных по памяти обращений к таблицам.
ПОЧЕМУ это важно: Подход атакует главное бутылочное горлышко современного ИИ: вычислительную сложность O(N^2) и затраты памяти на плотные матричные операции. Используя комбинаторный взрыв вариантов порядка спайков (n! состояний) вместо линейной емкости векторных пространств, архитектура демонстрирует теоретическое снижение требований к пропускной способности памяти в 10 000 раз и значительно более быструю сходимость. Это открывает путь к запуску логики уровня LLM на железе с потреблением в милливатты.
Подробнее: /channel/gonzo_ML_podcasts/1975
Заменяем тензорный лифтинг на геометрические методы. Очередной заход на замену квадратичного внимания на линейное не-внимание.
Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling
Zhang Chong
Статья: https://arxiv.org/abs/2512.19428
Ревью: https://arxiviq.substack.com/p/attention-is-not-what-you-need
Код: отсутствует
Модель: отсутствует
# TL;DR
ЧТО сделали: Автор представил архитектуру Causal Grassmann, заменяющую стандартный механизм self-attention размером L × L на слой геометрического смешивания. Вместо вычисления глобальной матрицы весов, модель проецирует скрытые состояния в низкоразмерное пространство, рассматривает пары токенов как 2D-плоскости на многообразии Грассмана и кодирует их взаимодействие через координаты Плюккера.
ПОЧЕМУ это важно: Работа ставит под сомнение догму о необходимости мягкого внимания (soft attention) для моделирования последовательностей. Ограничение взаимодействий конечномерным многообразием Gr(2, r) позволяет достичь линейной сложности O(L) и предлагает путь к математически обоснованной интерпретируемости, уходя от непрозрачного «тензорного лифтинга» (tensor lifting), свойственного трансформерам.
Подробнее: /channel/gonzo_ML_podcasts/1970
Адаптировали локальный алгоритм обучения Forward-Forward от Хинтона к свёрточным сетям. Не скажу, что сама идея вплетать метку в исходные данные меня зажигает, мне кажется это далеко от реальности и скорее всё равно должен быть какой-то сигнал сверху, пусть и без бэкпропа. Но всё равно интересный движ.
Training convolutional neural networks with the Forward–Forward Algorithm
Riccardo Scodellaro, Ajinkya Kulkarni, Frauke Alves, Matthias Schröter
Статья: https://www.nature.com/articles/s41598-025-26235-2
Код: https://doi.org/10.5281/zenodo.11571949 (но его там нет)
Ревью: https://arxiviq.substack.com/p/training-convolutional-neural-networks
# TL;DR
ЧТО сделали: Авторы успешно адаптировали алгоритм Forward-Forward (FF) Джеффри Хинтона, изначально созданный для полносвязных сетей, под свёрточные нейросети (CNN). Главная фишка — «пространственно-распределённая разметка» (spatially-extended labeling). Идея в том, чтобы «впекать» информацию о классе прямо в изображение (через частотные узоры или деформации), позволяя локальным фильтрам видеть метку в любой точке картинки.
ПОЧЕМУ это важно: Это решает главную архитектурную проблему обучения без обратного распространения ошибки. Классический FF кодирует метку локально (например, one-hot пиксели в углу), что ломается в CNN, где веса общие, а рецептивные поля локальны. Работа доказывает, что CNN могут обучаться через максимизацию локальной метрики goodness даже на сложных данных, что открывает дорогу к энергоэффективному обучению на нейроморфном железе.
Подробнее: /channel/gonzo_ML_podcasts/1952