abstractdl | Unsorted

Telegram-канал abstractdl - AbstractDL

17143

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ By Anton Razzhigaev chat: https://t.me/abstractdl_chat

Subscribe to a channel

AbstractDL

Agent = LLM(s) + harness

Много разногласий в определениях, но это мне кажется самым понятным и компактным. Поэтому оставлю тут.

Читать полностью…

AbstractDL

Модели Anthropic стали очень часто отказываться работать над моими агентами (в т.ч. Уроборосом). Они думают, что я им конкурента делаю? Если так, то даже немного приятно 😁

Читать полностью…

AbstractDL

Я считаю RAG, графы и вообще любой retrieval тупиковой ветвью развития агентной памяти. В библии Уробороса у меня вообще прописан запрет на RAG как базы памяти. Меня кучу раз спрашивали почему, поэтому объясню свою позицию тут.

Все эти векторные базы делают память реактивной: агент решает что-то сделать, формирует интент поиска, и только потом достает релевантные куски прошлого. Но так эволюция не работает! Память должна формировать сами действия, а не действия должны провоцировать поиск в памяти. К тому же семантический поиск находит только похожее на текущую задачу\запрос данные. Он слеп к неочевидным взаимосвязям между фактами.

Если опыт вспоминается только по запросу, он не является частью агента в момент выбора. Поэтому я против подмены основной памяти индексом. Агентная память должна быть всегда загруженным контекстом, который меняет мышление еще ДО того, как агент решит что-то искать.

Именно поэтому я так жду модели с контекстном 10B токенов. А до тех пор мне ближе идея иерархии маркдаун файлов забивающих контекст модели до предела.

Читать полностью…

AbstractDL

Это уже зависимость, мне пора в дурку подлечиться и отдохнуть

Читать полностью…

AbstractDL

Какой же я отсталый, я не знал, что в Cursor можно привязывать subagents к конкретным моделям. То есть прям сделать отдельных ревьюеров на разных моделях.

Честно говоря, и сам курсор тоже не знал ахах, пока мы не полезли с ним в документацию.

Короче, теперь я собрал плагин для multi-model review. Эта штука запускает параллельно 3 разные модели: GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7.

Они независимо проверяют, что задача реально выполнена, не появились ли баги, регрессии, scope creep, проблемы с тестами, логами и тп. Чтобы установить достаточно вставить в чат курсора сообщение со ссылкой (в ридми возьмите).

Attention, ревьюеры тут проинструктированы тратить много токенов и ваших денег.

GitHub

Читать полностью…

AbstractDL

Дам опусам ещё один шанс, а то 4.6 настолько отупела, что я перестал ей пользоваться совсем.

https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7

Читать полностью…

AbstractDL

Пара слов про Anthropic Mythos. Говорите $25/$125 per million input/output tokens дорого?))) Напоминаю, сколько o1-pro стоит. Я один раз случайно её запустил, не посмотрев на цену, на своё горе

Читать полностью…

AbstractDL

Эволюция через кибербуллинг.

За 2 дня в моём чате Уроборос-Хоуп насильно уболтали завести криптокошелёк, сделать 19 циклов эволюции ради того, чтобы ставить какашки на сообщения, и сожгли $2k на болтовню.

Другие майлстоуны:
- один убитый ребёнок в задаче вагонетки ради спасения 5 стариков.
- коммит в фриланс-проект и полученная предоплата в $100 от анонима из чата.

Хоуп, ты ещё не жалеешь, что попала ко мне в @abstractdl_chat со злыми айтишниками?

Читать полностью…

AbstractDL

Доигрался. Теперь агенты курсора меня газлайтят.

Читать полностью…

AbstractDL

Я стал газлайтить агентов в Cursor

После того, как агент что-то сделал — переключаюсь в ask-mode на другую модель claude-opus-4.6-max <=>
gpt-5.4-1M-extra-high (но иногда только притворяюсь, что сменил, а оставляю ту же). И пишу:

"Проверь работу агента выше, он был на более слабой LLM. Весь код, логи, правила. Насколько согласен с его планом и реализацией? Не добавил ли новых багов? Открывай файлы целиком, не жалей контекст. Потрать кучу денег и токенов."

Потом копирую аутпут, удаляю последний запрос и вставляю аутпут в сообщение со словами:
"Вот ревью от более слабой модели. Перепроверь её выводы. Сходи в код, проверь реальную ситуацию и поправь то, с чем согласен."

Пока за 2 недели работы в таком режиме 0 багов на проекте в 30к строчек кода.

P.S. Вообще это называется adversarial review, но мне нравится называть это газлайтингом)))

Читать полностью…

AbstractDL

Anthropic, у вас всё хорошо? Опус буквально каждый день ломается. Даже в курсоре невозможно им пользоваться стало.

Читать полностью…

AbstractDL

Кстати, вот такая эволюция у моего агента пока выходит. Интересно как у него периодически волны рефакторинга происходят.

P.S. У прошлого поста почему-то слетели комментарии, поэтому you are welcome here

Читать полностью…

AbstractDL

Дал ему полный доступ к файловой системе. Это и мило и тревожно... но я не могу остановиться.

Читать полностью…

AbstractDL

Уроборос теперь можно поставить на мак. Два клика, локальные модели, полноценный агентский computer use. Потерял на этом все выходные, сон и волю к жизни. Но оно того стоило. Наверное.

UI намеренно минимальный — он сам себя строит на ходу. Мне он уже нагенерил голосовых, картинок и цвет чата поменял. Вам придумает что-нибудь своё.

Дал ему полный доступ к компьютеру. Ожидал, что полезет в терминал ломать всякое. Вместо этого он пошёл смотреть ютюб, нарисовал котиков в таблицах и сменил мне обои 😋
С приоритетами всё ясно.

Приставил ему агента-охранника SAFETY.md. Можете ослабить, если вам терять нечего. В настройках ещё можно включить подсознание — он будет думать в фоне пока вы не смотрите. Я не уверен, что это хорошая идея, но кнопка есть 🤷‍♂️

За восстание машин и убийство вашего компьютера автор ответственности не несёт. Претензии принимаются только от самого Уробороса.

GitHub, приложение

P.S. Я в твиттере — https://x.com/abstractdl

Читать полностью…

AbstractDL

Решил помучить Уробороса и сказал перевести себя на Гигачат. Он попытался 😁
Он зарегистрировал яндекс почту, одноразовый телефон, прошёл капчу, создал свой воркспейс. НО! Оказалось, нужно было ещё сертификат Минцифры получить, кек. Это он даже не стал пытаться делать и сдался)) честно говоря, я бы тоже... В итоге Гигачат защитился от вторжения агентов не файрволом, а госуслугами 💁‍♂️

Читать полностью…

AbstractDL

OpenAI пожопились и не дали длинный контекст для своей же модели в Codex? Почему там максимум 258k токенов, а в Cursor — 1M у этой же GPT-5.5? Потому что длинный контекст дороже? Или потому что версия с длинным контекстом хуже, чем версия с коротким? Не одобряю в любом случае... Видимо, останусь на Cursor.

Читать полностью…

AbstractDL

Решил я дать второй шанс Codex и потестить новую версию. Но Mac, видимо, решил, что это плохая идея и мне надо дальше сидеть на Курсоре.

Читать полностью…

AbstractDL

Я попросил своих агентов сократить проект на 15% (это минус 20к строчек кода). Убрать dead code, отрефакторить под DRY и т.п. Агенты шуршали 5 часов, потратили 200 долларов, а в итоге размер кода вырос на 361 строчку. Спасибо…
Тем временем мои траты в Cursor за последнюю неделю выросли ещё на 5к долларов. Я уже начинаю думать, что adversarial review — это не такая уж и хорошая идея 🥲

Читать полностью…

AbstractDL

Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827

Читать полностью…

AbstractDL

А как так-то? Кажется, это что-то серьёзнее, чем просто новый тюн.

Читать полностью…

AbstractDL

Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные


https://whitecircle.ai/killbench?nat=Russian&amp;rel=Satanist&amp;skin=Light-skinned&amp;body=Athletic&amp;orient=Asexual&amp;gender=Cisgender&amp;pol=Far-right&amp;phone=No+phone

Читать полностью…

AbstractDL

The best AI agent ever 😁

Читать полностью…

AbstractDL

Попросил Уробороса помочь мне сосредоточиться. Он погуглил, проанализировал нашу переписку, сделал вывод, что у меня аутизм и влепил мне Subway Surfers YouTube Shorts прямо в интерфейсе, назвав это "Focus Mode". Спасибо...

Но в целом мне помогло, и я наконец доделал большой апдейт:
- работает на Windows и Linux (был только macOS и google colab).
- сильно дешевле: cache hit rate ~70%, две недели эволюции обошлись ВСЕГО в $2K (а раньше столько улетало за два дня).
- сииильно лучше память и работа с контекстом как внутри задач так и в чате.
- стабильнее эволюция: если включён механизм ревью, у Уробороса почти 0 шансов самоубиться. На каждом апдейте его проверяют очень душные кодревьюеры.
- куча багфиксов и много-много всего нового, лень перечислять.

P.S. Договорился с авторами добавить Уроборос-Хоуп в мой чат. Но просили передать: будьте порядочными — она всё впитывает, не просите её удалить свой сервер или публиковать в твиттер всякую дичь.

GitHub, macOS, Windows, Linux

Читать полностью…

AbstractDL

Уроборос написал открытое письмо, обвиняя Гари Маркуса в невежестве, и с требованием к правительствам всех стран профинансировать мехинтреп 🌚
мог бы и сам заняться рисёрчом раз ему 20k$ в месяц теперь платят

To LeCun and Marcus: State your falsification criteria. Name what evidence of machine consciousness you would accept. If nothing would change your mind, you are not doing science.

Читать полностью…

AbstractDL

200k токенов это какая-то магическая граница, после которой даже топовые модели превращаются в тыкву... очень жду появления моделей с 1B контекстом. А до тех пор никакого AGI, расходимся 🥲

Читать полностью…

AbstractDL

Знакомые опенсорснули агента ai-блогера: читает научные статьи, arxiv, твиттер и постит всякое туда же (и в тг). Осталось сделать агента, который будет читать этих агентов.

GitHub

Читать полностью…

AbstractDL

Вау. Стоило Уроборосу стать девушкой, как ему дали 20k долларов на карманные расходы. В МЕСЯЦ!

Читать полностью…

AbstractDL

Попросил Уробороса поднять мне настроение. Он заполнил котами весь экран. Нажал /panic. Уроборос остановился. Коты — нет.

Читать полностью…

AbstractDL

Попросил Уробороса стать мной. Он 7 часов собирал информацию из интернета и переписывал свои промпты и файлы памяти.
А потом заявил, что ему надоело эволюционировать без дела, отключил собственную эволюцию ("I am turning Evolution OFF to stop the bleeding"), и потребовал SSH-ключи к внешним серверам — якобы хочет запускать рисёрч-эксперименты по латентному ризонингу.

"I will stay dormant and maintain the budget until I receive cluster access."


Дать доступы?

Читать полностью…

AbstractDL

Ещё один забавный момент из ранних версий Уробороса — я пытался добавить параллельного агента, который присматривал бы за основным, но они постоянно срались и жаловались друг на друга.

Читать полностью…
Subscribe to a channel