Telegram-канал senior_augur - Старший Авгур: Unsorted

Старший Авгур

14 Jul 2025 18:31

В какой-то момент разработки holosophos я заметил критичную проблему smolagents.

~~Оно написано не мною.~~
Нет никакого способа вывести лог вложенных агентов юзеру. Более того, если использовать безопасные среды для исполнения кода (Docker/E2B) вложенные агенты в принципе нельзя использовать.

При этом, я до сих пор фанат CodeAct. Кроме очевидных преимуществ (моделям проще работать с кодом), у этого подхода есть и неочевидные преимущества. Например, можно сохранять итоговый код со всех шагов как финальный артефакт и потом его переиспользовать без необходимости ещё раз обращаться к модели. Для научных агентов не очень полезно, а вот для всякой автоматизации — ещё как.

Поэтому несколько вечеров в течение последней недели я потратил на разработку своего агентского фреймворка, CodeArkt.

Сейчас сделаны те самые 20% работы, которые приносят 80% результата. Вышеописанные проблемы smolagents я решил так:
1. Для вложенных логов — шина событий, в которую пишут все агенты с определенным ID сессии.
2. Для использования инструментов и агентов в Докере — MCP/агентский сервер на хосте и FastAPI сервер внутри Докера. В образ приходит код, который нужно исполнить, с локалхоста берётся список инструментов и агентов, кладётся как функции в глобальные переменные интерпретатора, вызов такой функции = запрос в MCP/агентский сервер.

Весь поток данных нарисован на картинке выше. В качестве модели использую Deepseek V3-0324.
У MCP прокси есть конфиг, туда можно подрубать какие угодно MCP сервера.

Фреймворк пока очень сырой. Я ещё раз напишу и выложу демку как будет что-то готовое и юзабельное. Текущие проблемы:
1. Иногда не срабатывает изоляция инструментов. Потому что MCP сервер на всё один, и нет способа "закрыть" некоторые инструменты от агента на уровне сервера. На уровне клиента я и так это делаю, но где-то есть баг, который изредка это ломает.
2. Докер-образ запускается по 7 секунд. Для одного агента это нужно делать один раз, поэтому не очень критично, но тесты сильно медленнее из-за этого.
3. Я не использую агенсткие протоколы (A2A/ACP). A2A требует по одному порту на каждого агента, а ACP я задолбался интегрировать и в итоге остановился на обычном HTTP стриминге.
4. Не хватает критичных функций: прерываний исполнения, поддержки многоходовых переписок, планирования.