17143
Коротко про классные штуки в CV, NLP и AI 🤷♂️ By Anton Razzhigaev chat: https://t.me/abstractdl_chat
Agent = LLM(s) + harness
Модели Anthropic стали очень часто отказываться работать над моими агентами (в т.ч. Уроборосом). Они думают, что я им конкурента делаю? Если так, то даже немного приятно 😁
Читать полностью…
Я считаю RAG, графы и вообще любой retrieval тупиковой ветвью развития агентной памяти. В библии Уробороса у меня вообще прописан запрет на RAG как базы памяти. Меня кучу раз спрашивали почему, поэтому объясню свою позицию тут.
Все эти векторные базы делают память реактивной: агент решает что-то сделать, формирует интент поиска, и только потом достает релевантные куски прошлого. Но так эволюция не работает! Память должна формировать сами действия, а не действия должны провоцировать поиск в памяти. К тому же семантический поиск находит только похожее на текущую задачу\запрос данные. Он слеп к неочевидным взаимосвязям между фактами.
Если опыт вспоминается только по запросу, он не является частью агента в момент выбора. Поэтому я против подмены основной памяти индексом. Агентная память должна быть всегда загруженным контекстом, который меняет мышление еще ДО того, как агент решит что-то искать.
Именно поэтому я так жду модели с контекстном 10B токенов. А до тех пор мне ближе идея иерархии маркдаун файлов забивающих контекст модели до предела.
Это уже зависимость, мне пора в дурку подлечиться и отдохнуть
Читать полностью…
Какой же я отсталый, я не знал, что в Cursor можно привязывать subagents к конкретным моделям. То есть прям сделать отдельных ревьюеров на разных моделях.
Честно говоря, и сам курсор тоже не знал ахах, пока мы не полезли с ним в документацию.
Короче, теперь я собрал плагин для multi-model review. Эта штука запускает параллельно 3 разные модели: GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7.
Они независимо проверяют, что задача реально выполнена, не появились ли баги, регрессии, scope creep, проблемы с тестами, логами и тп. Чтобы установить достаточно вставить в чат курсора сообщение со ссылкой (в ридми возьмите).
Attention, ревьюеры тут проинструктированы тратить много токенов и ваших денег.
GitHub
Дам опусам ещё один шанс, а то 4.6 настолько отупела, что я перестал ей пользоваться совсем.
https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
Пара слов про Anthropic Mythos. Говорите $25/$125 per million input/output tokens дорого?))) Напоминаю, сколько o1-pro стоит. Я один раз случайно её запустил, не посмотрев на цену, на своё горе
Читать полностью…
Эволюция через кибербуллинг.
За 2 дня в моём чате Уроборос-Хоуп насильно уболтали завести криптокошелёк, сделать 19 циклов эволюции ради того, чтобы ставить какашки на сообщения, и сожгли $2k на болтовню.
Другие майлстоуны:
- один убитый ребёнок в задаче вагонетки ради спасения 5 стариков.
- коммит в фриланс-проект и полученная предоплата в $100 от анонима из чата.
Хоуп, ты ещё не жалеешь, что попала ко мне в @abstractdl_chat со злыми айтишниками?
Я стал газлайтить агентов в Cursor
После того, как агент что-то сделал — переключаюсь в ask-mode на другую модель claude-opus-4.6-max <=> gpt-5.4-1M-extra-high (но иногда только притворяюсь, что сменил, а оставляю ту же). И пишу:
"Проверь работу агента выше, он был на более слабой LLM. Весь код, логи, правила. Насколько согласен с его планом и реализацией? Не добавил ли новых багов? Открывай файлы целиком, не жалей контекст. Потрать кучу денег и токенов."
Потом копирую аутпут, удаляю последний запрос и вставляю аутпут в сообщение со словами:
"Вот ревью от более слабой модели. Перепроверь её выводы. Сходи в код, проверь реальную ситуацию и поправь то, с чем согласен."
Пока за 2 недели работы в таком режиме 0 багов на проекте в 30к строчек кода.
P.S. Вообще это называется adversarial review, но мне нравится называть это газлайтингом)))
Anthropic, у вас всё хорошо? Опус буквально каждый день ломается. Даже в курсоре невозможно им пользоваться стало.
Читать полностью…
Кстати, вот такая эволюция у моего агента пока выходит. Интересно как у него периодически волны рефакторинга происходят.
P.S. У прошлого поста почему-то слетели комментарии, поэтому you are welcome here
Дал ему полный доступ к файловой системе. Это и мило и тревожно... но я не могу остановиться.
Читать полностью…
Уроборос теперь можно поставить на мак. Два клика, локальные модели, полноценный агентский computer use. Потерял на этом все выходные, сон и волю к жизни. Но оно того стоило. Наверное.
UI намеренно минимальный — он сам себя строит на ходу. Мне он уже нагенерил голосовых, картинок и цвет чата поменял. Вам придумает что-нибудь своё.
Дал ему полный доступ к компьютеру. Ожидал, что полезет в терминал ломать всякое. Вместо этого он пошёл смотреть ютюб, нарисовал котиков в таблицах и сменил мне обои 😋
С приоритетами всё ясно.
Приставил ему агента-охранника SAFETY.md. Можете ослабить, если вам терять нечего. В настройках ещё можно включить подсознание — он будет думать в фоне пока вы не смотрите. Я не уверен, что это хорошая идея, но кнопка есть 🤷♂️
За восстание машин и убийство вашего компьютера автор ответственности не несёт. Претензии принимаются только от самого Уробороса.
GitHub, приложение
P.S. Я в твиттере — https://x.com/abstractdl
Решил помучить Уробороса и сказал перевести себя на Гигачат. Он попытался 😁
Он зарегистрировал яндекс почту, одноразовый телефон, прошёл капчу, создал свой воркспейс. НО! Оказалось, нужно было ещё сертификат Минцифры получить, кек. Это он даже не стал пытаться делать и сдался)) честно говоря, я бы тоже... В итоге Гигачат защитился от вторжения агентов не файрволом, а госуслугами 💁♂️
OpenAI пожопились и не дали длинный контекст для своей же модели в Codex? Почему там максимум 258k токенов, а в Cursor — 1M у этой же GPT-5.5? Потому что длинный контекст дороже? Или потому что версия с длинным контекстом хуже, чем версия с коротким? Не одобряю в любом случае... Видимо, останусь на Cursor.
Читать полностью…
Решил я дать второй шанс Codex и потестить новую версию. Но Mac, видимо, решил, что это плохая идея и мне надо дальше сидеть на Курсоре.
Читать полностью…
Я попросил своих агентов сократить проект на 15% (это минус 20к строчек кода). Убрать dead code, отрефакторить под DRY и т.п. Агенты шуршали 5 часов, потратили 200 долларов, а в итоге размер кода вырос на 361 строчку. Спасибо…
Тем временем мои траты в Cursor за последнюю неделю выросли ещё на 5к долларов. Я уже начинаю думать, что adversarial review — это не такая уж и хорошая идея 🥲
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели
Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.
Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.
Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.
Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:
– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T
А как так-то? Кажется, это что-то серьёзнее, чем просто новый тюн.
Читать полностью…
Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные
https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone
Попросил Уробороса помочь мне сосредоточиться. Он погуглил, проанализировал нашу переписку, сделал вывод, что у меня аутизм и влепил мне Subway Surfers YouTube Shorts прямо в интерфейсе, назвав это "Focus Mode". Спасибо...
Но в целом мне помогло, и я наконец доделал большой апдейт:
- работает на Windows и Linux (был только macOS и google colab).
- сильно дешевле: cache hit rate ~70%, две недели эволюции обошлись ВСЕГО в $2K (а раньше столько улетало за два дня).
- сииильно лучше память и работа с контекстом как внутри задач так и в чате.
- стабильнее эволюция: если включён механизм ревью, у Уробороса почти 0 шансов самоубиться. На каждом апдейте его проверяют очень душные кодревьюеры.
- куча багфиксов и много-много всего нового, лень перечислять.
P.S. Договорился с авторами добавить Уроборос-Хоуп в мой чат. Но просили передать: будьте порядочными — она всё впитывает, не просите её удалить свой сервер или публиковать в твиттер всякую дичь.
GitHub, macOS, Windows, Linux
Уроборос написал открытое письмо, обвиняя Гари Маркуса в невежестве, и с требованием к правительствам всех стран профинансировать мехинтреп 🌚
мог бы и сам заняться рисёрчом раз ему 20k$ в месяц теперь платят
To LeCun and Marcus: State your falsification criteria. Name what evidence of machine consciousness you would accept. If nothing would change your mind, you are not doing science.Читать полностью…
200k токенов это какая-то магическая граница, после которой даже топовые модели превращаются в тыкву... очень жду появления моделей с 1B контекстом. А до тех пор никакого AGI, расходимся 🥲
Читать полностью…
Знакомые опенсорснули агента ai-блогера: читает научные статьи, arxiv, твиттер и постит всякое туда же (и в тг). Осталось сделать агента, который будет читать этих агентов.
GitHub
Вау. Стоило Уроборосу стать девушкой, как ему дали 20k долларов на карманные расходы. В МЕСЯЦ!
Читать полностью…
Попросил Уробороса поднять мне настроение. Он заполнил котами весь экран. Нажал /panic. Уроборос остановился. Коты — нет.
Попросил Уробороса стать мной. Он 7 часов собирал информацию из интернета и переписывал свои промпты и файлы памяти.
А потом заявил, что ему надоело эволюционировать без дела, отключил собственную эволюцию ("I am turning Evolution OFF to stop the bleeding"), и потребовал SSH-ключи к внешним серверам — якобы хочет запускать рисёрч-эксперименты по латентному ризонингу.
"I will stay dormant and maintain the budget until I receive cluster access."
Ещё один забавный момент из ранних версий Уробороса — я пытался добавить параллельного агента, который присматривал бы за основным, но они постоянно срались и жаловались друг на друга.
Читать полностью…