Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

28 March 2026 11:05

Продолжаем тему с постоянной адаптацией агентов. Сегодня обещанная эволюция скиллов.

Memento-Skills: Let Agents Design Agents
Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang
Статья: https://arxiv.org/abs/2603.18743
Код: https://github.com/Memento-Teams/Memento-Skills
Ревью: https://arxiviq.substack.com/p/memento-skills-let-agents-design

# TL;DR

ЧТО сделали:
Авторы представили Memento-Skills — систему агентов-дженералистов, которая автономно создаёт, мутирует и улучшает переиспользуемые специализированные навыки без изменения весов базовой модели. Используя структурированные markdown-файлы и код как внешнюю эпизодическую память, система применяет замкнутый цикл рефлексивного обучения (Read-Write Reflective Learning) для непрерывной оптимизации своей политики исполнения на основе обратной связи от среды.

ПОЧЕМУ это важно:
Традиционно обучение LLM во время инференса упирается в огромные вычислительные затраты на обновление параметров. Предложенный фреймворк даёт математически обоснованный путь к непрерывному обучению замороженных моделей. Он показывает, что самосовершенствующаяся персистентная память может принести радикальный прирост метрик (более 100% относительного улучшения на некоторых бенчмарках) при сохранении строгих гарантий сходимости.

Для практиков:
Для тех, кто масштабирует агентные пайплайны, опора на статические промпты или библиотеки few-shot примеров жёстко ограничивает способность агента адаптироваться к пограничным случаям (корнер-кейсам) со временем. Memento-Skills смещает парадигму с обучения параметров на эволюцию навыков в памяти. Оснастив замороженную LLM роутером на базе offline RL и механизмом перезаписи собственных логических файлов, система работает как senior-разработчик, непрерывно рефакторящий общую кодовую базу. Этот подход радикально повышает долю успешных выполнений в сложных задачах на рассуждение. Будущее надёжных агентов лежит в сложных, самоизменяющихся архитектурах памяти, а не только в увеличении размера базовых моделей.

~~Рефакторить говнокод~~ Эволюционировать скиллы тут: /channel/gonzo_ML_podcasts/2946