-
Проекты и соучастие: https://t.me/ainsta_chatbot - помогает вести соцсети https://t.me/prompt_father_bot - пишет gpt промты https://t.me/TGNaming - шутим Сети: https://instagram.com/sergei_notevskii https://ru.linkedin.com/in/sergeynotevskiy
Я уже в Красной Поляне.
Решил вырваться на несколько дней пораньше: тут живет старшая дочь, ну и заодно есть время нормально раскататься до старта Snow BASE.
В прошлый раз я писал, что еду ради формата. А сейчас, пока жду начала, понимаю, почему такой подход вкатывает мне всё больше.
Обычно как бывает: спикер выходит на сцену и 20 минут вещает, как у них всё идеально завелось. А самый полезный и честный разговор случается потом - где-нибудь в стороне, без микрофона и красивых слайдов. На кэмпе ребята, по сути, перевернули эту логику и сделали «кулуары» основной программой.
Думаю, для AI-тусовки это сейчас важно. Так уж вышло, что вокруг сплошной хайп, гонка за звание «AI-first company» и публичные заявления об успешном успехе. Ирония в том, что именно в нашем домене сейчас жутко не хватает настоящего и живого диалога. Ну или меня в него не зовут :)
Посмотрим, как идея «кэмпа вместо конференции» сработает вживую, но ожидания высокие.
Ну а пока - горы.
Если кто будет на днях в Поляне - маякуйте в комменты, пересечемся на каталке или за кофе ⛷
Комментатор на хабре запилил на основе статьи утилиту которая показывает:
1. Сколько сэкономила подписка Claude относительно оплаты за токены
2. Сколько стоили бы токены без кэша
Цифры какие-то бешеные, но в целом видно что разработчики Anthropic стараются уметь в кэш.
https://github.com/AgiMateIo/claude-cache-analyzer
Никогда не участвовал в таких форматах мероприятий, но решил попробовать.
19–22 марта еду на кэмп Snow BASE для C-level в Data & AI в Красную Поляну.
Решил буквально из-за формата - разбор реальных кейсов с внутренней кухней от ребят которые внедряют AI в промышленных масштабах. И все это совмещенное с горнолыжкой.
Подробнее про формат можно почитать тут. Посмотрите программу сами и поймёте зачем туда ехать. Такая концентрация людей одного уровня в одном месте случается редко.
Ну и важное: планирую кататься ⛷
Программа программой, но склон не пропущу (их итак стало слишком мало в последние годы).
Если вы тоже едете - пишите в комментах где останавливаетесь, скооперируемся.
Продолжая эпопею с Qwen 3.5
Появился набор моделей с квантизацией GPTQ-Int4
GPTQ агрессивнее в потерях точности чем FP8, но зато 35B-A3B влезет гигов в 20 GPU.
Почему хорошо что сам Qwen выложили этот квант, и чем это отличается от того как сжимают его сторонние лабы?
Qwen знают на чём обучали модель и могут подобрать калибровку весов максимально эффективно в отличии от сторонних лаб.
Короче надо тестить пока DeepSeek v4 не вышел)
Мой коллега Сева выкатил свежую статью на Хабре - про тестирование ai-сценариев и агентов.
Внутри - конкретный путь от отсмотра ответов «глазками» до работающей системы бенчмарков, LLM-судей, Langfuse и конечно грабли которые мы собрали по дороге.
Все это на примере реальных кейсов из прода.
Читается за 9 минут, и есть что унести с собой.
И уже по традиции:
договорился, что Сева ответит на вопросы в комментах к этому посту - если что-то осталось непонятным или хочется уточнить детали реализации)
Датасет из веба (вэба/вёба/web)
Ресерчил разные движки для поиска с LLM через API и посоветовали Parallel AI.
И да, у них отличный дипресерч, но сегодня не об этом.
Сервис предоставляет инструмент FindAll, который позволяет собрать из веба структурированный и обогащенный признаками датасет.
Выглядит это так:
1. Формируем запрос, сразу указывая какие-то признаки(enrichments).
Например "Find all конференции связанные с ai тематикой запланированые на 2026 год в русскоязычном сообществе, на которые еще можно податься."
2. Получаем превью результата
3. Меняем/добавляем признаки
4. Регулируем сколько совпадений по признакам хотим найти (5-500), насколько глубокий ресерч нужен (я всегда оставляю по-умолчанию Сore), и сколько денег готовы потратить
5. Стартуем ресерч и смотрим как он наполняется, идут проверки по признакам
6. В процессе, если видим что результаты хорошо бы проверять на еще что-то - добавляем новые признаки
7. Получаем результат и выгружаем в CSV
Что еще хорошо - каждое значение в таблице имеет подтверждения в виде источника.
Мой итог: 5$ за таблицу из около 250 сущностей, из которых 25 соответствуют заданым критериям :)
Обычно переход с API (MaaS) на self-hosted подают как способ сэкономить. Но если смотреть на это из реального контекста, то экономика - это только один из слоев.
Главная проблема своего кластера локальных моделей в том, что ты внезапно становишься ответственным за всё: от доступности железа до деградации качества и латентности, которую раньше гарантировал провайдер. В Битрикс24 мы работаем на объемах в десятки миллионов запросов к llm, и там "просто поднять deepseek" не работает - вылезает ворох проблем с MLOps, поддержкой и обновлением стека, который устаревает быстрее, чем вы успеваете его задеплоить.
19 февраля буду выступать на конференции ROИИ 2026. Тема как раз про этот переход:
«MaaS vs Self-hosted: как перейти на свои модели без провала качества и SLO»
О чем будем говорить:
— Точка перегиба: когда свои GPU - это необходимость для продукта, а когда - неоправданный риск.
— Скрытая часть айсберга: чем еще приходится платить, кроме стоимости серверов.
— Кейс Битрикс24: как мы переезжали, сохраняя стабильность на проде.
В конце дам чек-лист - список вопросов, которые стоит задать себе перед тем, как переходить на self-hosted.
А еще на конференции своими мыслями и кейсами поделится команда крутых спикеров (просто посмотрите агенду на сайте).
Когда проходит конфа: 19-20 февраля
Формат: Онлайн
Попасть можно бесплатно, если подписаться на каналы спикеров через бота. Или платно, если нужен сертификат.
Регистрация и программа тут: ai-pnl.com
OpenAI: GPT 5.2 Pro - наша самая продвинутая модель, решила очередные невероятные задачи!
Тем временем GPT 5.2 Pro: *не находит доступ до необходимого репозитория о чем думает 20 минут, вместо того чтобы сказать сразу*
Ну и очень важные выводы сделанные системой после анализа всего что я ей скормил.
Читать полностью…
Vibeworking для нетехнарей (и ideфобов/терминалфобов)
В продолжение поста по инструментам.
Сейчас идет большой тренд на использование изначально кодинг-инструментов(например Claude Code), в задачах, не связанных с программированием как таковым. Вот классная подборка из 50 задач собранных Lenny Rachitsky.
Но проблема в том, что большая часть новых пользователей таких инструментов - это не разработчики, а ребята привыкшие к «человеческим» интерфейсам. Терминалы, IDE и прочие атрибуты кодинга их пугают уже одним своим присутсвием (технари, вы можете смеяться, но судя по фидбеку от коллег это действительно отталкивающий фактор).
Anthropic вовремя подсуетился и выпустил Claude Cowork, который по факту является Desktop оберткой над Claude Code, и позволяет делать все тоже самое (в тч и vibe-кодить). Но судя по отзывам - вышло не очень: тратит много токенов, и не решает задачи до конца.
Опенсорс-альтернатива сына маминой подруги
А еще быстрее подхватил тему Валера Ковальский, который пилит опенсорс аналог - LocalDesk.
Это фактически бесплатный десктоп-ассистент для vibe-кодинга (в случае с работой через локальную модель), решающий проблему интерфейса.
Из ключевого:
- Открытый код (+ нет жесткой завязки только на Claude)
- Поддержка локальных моделей
- Работа с файлами (в тч PDF/DOCX)
- Память между сессиями (в отличии от того же Cowork)
- Поиск в интернетах
- И тд
Хотя я приверженец терминала, но даже мне понравилось. Думаю если поработаю в нем пару недель, уже не захочу возвращаться (и клетчатые рубашки перестану носить, да).
Однозначно буду советовать коллегам-"не разработчикам" внутри компании.
А когда будет большая волшебная кнопка, чтобы настраивалось все само - цены ему не будет.
Попробовать можно:
- из исходников LocalDesk (попросить тот же Warp собрать)
- из dmg (активно разрабатывается, поэтому может быть не самая свежая версия)
П.с. вообще рекомендую канал Валеры, приятно читать hands-on руководителей.
Как говориться "был подписан, когда это еще не было мейнстримом".
Племянница знакомой участвует в конкурсе…
Никогда таким не занимался, и вот время пришло:
Каким-то образом две мои последние статьи на Хабре выбились в топ 10 очередного «ИИ сезона» (я участвую в первый раз).
Знаю, тут в канале многие так или иначе пришли с Хабра. Поэтому, уважаемые читатели,
не призываю ставить «слепой» лайк, но прошу прочитать и оценить:
Статья про длинные контексты.
Статья про Agent Skills.
Завтра последний день сезона, итоги уже скоро.
Делать прогнозы – дело неблагодарное. Но полезное. Заставляет оглянуться назад и отделить хайп от долгосрочных трендов. Пока катался по горам на байке, наформулировал три прогноза, которые меняют мои планы в 2026ом
1️⃣ Claude Code как агентное ядро для любой нишевой херни.
Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях
Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code
Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills
Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата
2️⃣ Skills станут более популярными, чем MCP
Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?
Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии" 📈
Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать <command> --help
А тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP
3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов
Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)
Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.
А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.
Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.
Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.
4️⃣ (бонус)
Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.
Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine
Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете
Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
Лучше поздно чем никогда
С Новым годом, друзья!
Искренне желаю всем хорошенько отдохнуть оставшиеся дни январских праздников. Не важно - на свежем зимнем воздухе, в теплых странах или дома на диване перед сериальчиком. Главное отдохнуть :)
Я же планирую как следует отоспаться, тк сон это тот ресурс который я никак не могу восполнить последнее время.
А еще в планах зачитаться всеми отложенными материалами, статьями и ссылками, которые собирал весь декабрь, но не мог переварить. Возможно это приведет к какому-то активному постингу в эти дни, но это не точно.
Ну и буду стараться не сбавлять набранный осенью темп выкладывания постов.
Спасибо что читаете!
Папка с файлами
Давно откладывал момент чтобы разобраться с относительно новым понятием - навыков агентов.
Сначала были LLM. Потом - агенты, MCP, RAG, tools: сложная архитектура, протоколы, оркестрация.
А в конце 2025 индустрия внезапно формализует следующий “большой шаг” как… папку с файлами.
И я такой: Что???
Почему сейчас? В чем разница от того что мы уже имеем? Где место этим самым навыкам в зоопарке подходов и технологий современных ai-систем?
Ну и так как сообщество говорит о том что в 2026 Agent Skills будут так же в ходу как MCP, RAG и агенты в этом, я решил разобраться и разложить по полкам.
Так родился этот лонгрид.
Прошу к ознакомлению, надеюсь будет полезно.
Мы не готовы к голосовой совместной работе
Дисклеймер: под словом «мы», в данном контексте, я в первую очередь подразумеваю, так или иначе работающих в digital. Думаю что у профессий другого «домена» вполне может быть другой расклад.
Недавно ChatGPT обновил функционал своего голосового ассистента. Теперь он встроен в чат. Получился такой смешанный режим когда мы и слышим/видим и говорим/печатаем.
И на мой взгляд это все еще какой-то костыль, который не представляю как использовать в работе.
Не, не поймите не правильно - голосовой режим я использую давно (буквально с первых дней после релиза) и достаточно часто (когда добирался домой/на работу на авто, так вообще каждый день по паре часов).
Но это всегда формат голос-голос, скорее как аудио-звонок. Поговорить, поштурмить, поресерчить, составить планы и тд.
Помню, как долго ждал способности работать с IDE и другими приложениями в голосовом режиме(это есть в ChatGPT Desktop). Представлял вот эти истории, когда Старк управляет Джарвисом командуя - "сделай это! переверни! пофикси! повысь зп!" и тд.
Но не срослось.
Сидеть в офисе, работать и постоянно с кем-то трепаться оказалось:
1. Странно
2. Не уважительно к другим
3. Стремно. Озвучивать свои дебильные вопросы вроде "как установить homebrew без homebrew?" - я не готов.
И это все про часть управления, которая подразумевает голосовой ввод.
Про вывод - вообще молчу. Типичные сценарии, в которых мы считываем информацию глазами, нереально долго и не удобно "потреблять" через слух.
Кажется что здесь нужны какие-то другие механики взаимодействия.
Короче, для себя я так и не нашел нормального сценария совместной работы через аудио-режим. Даже в дни, когда работаю из дома.
Если у вас есть нормальный кейс работы через аудио ввод/вывод - поделитесь в коментах, может я чего-то не понимаю.
Что может пойти не так при написании MCP сервера?
Главная ловушка в том, что ты пишешь детерминированный инструмент, а пользоваться им будет недетерминированная модель.
Мой коллега и тимлид команды AI-агентов @mvasilyev написал классную статью про грабли, которые мы собрали (а на часть - наступили) при написании MCP-серверов.
OAuth который все поддерживают по разному, 50 тулов из swagger которые убивают качество, описания которые модель интерпретирует не так и тд.
По традиции если есть что обсудить - пишите тут в коменты, Миша ответит.
Душная статья про экономику кэширования
Где-то с пол года назад решил разобраться в том как работает кэширование (ака prefix cache) у разных провайдеров.
Все это время собирал фактуру, копался в деталях, прокастинировал, писал черновик...
И вот наконец довел материал до полноценной статьи.
Внутри цифры и особенности кэша у OpenAI, Gemini, Anthropic и чутка OpenRouter. А разница там есть.
Читайте, считайте, жду в комменты)
п.с. Надеюсь отсылка обложки будет понятна, я старался)
#300tps
vLLM-SR - роутер/комбайн который смог.
Есть классическая боль в проде (особенно с чатовыми ассистентами): большая дорогая модель с reasoning обрабатывает "привет, переведи текст". На небольшом трафике незаметно, на большом - не хочется смотреть в статистику))
Когда OpenAI сделал авторежим (модель сама решает, включать reasoning или нет, без явного указания в промпте) - хотелось такое же у себя, под своими моделями. И я точно знаю, что такие решения большие многие делают для себя. Очевидная же штука - давайте роутить в умныебольшиедорогие модели только то, что этого требует.
И вот почитывая блог vLMM наткнулся на первый мажорный релиз vLLM Semantic Router v0.1 (далее SR). Развернул, потестил, принёс команде.
Делюсь что нашёл - включая аргументы против.
Что это такое
Прослойка между фронтом и моделями. Смотрит на входящий запрос и решает: отдать быстрой и дешевой 8B(или сейчас уже можно 0.5B?) или будить большого агента. Написан на Rust, классифицирует через лёгкие модели на CPU.
Инженерно аккуратно, но под капотом комбайн.
По данным самих vLLM, по сравнению с тем чтобы вести все запросы на большую модель (брали какую-то из топовых проприетарных):
- 47% латентности,
- 48% токенов,
+ 10% точности
Про точность это вообще отдельный момент. Насколько я понял из статьи - в некоторых простых кейсах большая модель отвечает хуже, как раз из-за того что слишком много думает.
Хотя конечно вендорским цифрам не доверяем по умолчанию) Нужно тестить более подробно.
Еще нюанс: сам SR добавляет 200мс-1с оверхед на каждый запрос.
Профит появляется только если за счёт роутинга на 8B итоговое время ответа реально меньше.
Приятный сюрприз - UI дашборд.
Честно не ожидал что там будет нормальный дашборд. Ну хорошо что не репозиторий с SPEC.md как в symphony. Но он есть: видно как обрабатываются сигналы и принимается решение по каждому запросу, можно редактировать правила прямо там, есть playground чтобы тестировать на живых запросах и смотреть что сработало и почему. По меркам нишевых "инфра"-инструментов - круто.
Кстати есть паблик версия дашборда где можно поиграться.
Коллеги сразу поймали главный риск: если поставить SR внутрь агентского цикла - он сломает флоу. Ты в середине сложной задачи, а регулярка роутера триггерится не туда. Контекст - всё.
Где реальная ценность
SR должен хорошо сработать если стоит ДО всего, особенно до агентского цикла. И вот тогда он закрывает сразу несколько болей одним слоем:
Роутинг - это только первое. Простые запросы уходят на малышей, сложные - к большой модели.
Но дальше интереснее.
Я там выше писал про комбайн. Кроме всей этой намотки с роутером, они реализовали несколько слоев, которые могут хорошо упросить обработку запросов:
Semantic cache - похожие запросы вообще не долетают до модели, возвращается кэшированный ответ. Поверх роутинга это отдельный большой выигрыш по токенам и времени, особенно если запросы хорошо кэшируются.
Tool Selection - SR по семантике запроса режет каталог инструментов до отправки в модель. Агент получает только релевантные.
Safety из коробки - PII-фильтрация и jailbreak-детект встроены как плагины.
HaluGate - детект галлюцинаций прямо на выходе модели, до того как ответ ушёл пользователю. Трёхступенчатый: сначала определяет нужна ли фактчек-проверка вообще, потом находит конкретные токены под вопросом, потом объясняет почему. Вот эта интересная штука, которой займусь отдельно.
Ну и все это плагинами - включил то что нужно, что не нужно - нет. Плюс ко всему модели для классификации можно подставлять любые свои.
Буду ресерчить дальше - интересно как ведёт себя под реальной нагрузкой.
Если используете sr или аналог в проекте - призываю в комменты.
#300tps
Итак Qwen 3.5 вышел целой линейкой, как и ожидалось.
И первые отзывы от ребят - очень хорош в агентских сценариях.
Но вот загвоздка - у самой лакомой модели 35B-A3B (размер, MoE, бенчмарки) сейчас случается приступ при размышлениях, которые в итоге растягиваются в длинную портянку на любой чих.
Мы знатно поглумились над этим в коментах у Валеры, и вот Павел про это писал.
Кто-то даже нашел хак что модель перестает страдать фигней если добавить хотя бы 1 tool.
Но меня знатно достала эта история с некотролируемым ризонингом у qwen семейства (в vllm уже как пол года делают поддержку), я психанул и сделал отрезание ризонинга при превышении заданного лимита токенов.
Если кому надо будет оно тут - gist.
Инструкция(актуально только для vLLM):
1. Сохраняем thinking_budget_logitproc.py в локальную папку, например
./vllm_ext/thinking_budget_logitproc.py
services:
vllm:
image: vllm/vllm-openai:nightly
ports:
- "8000:8000"
volumes:
- ./vllm_ext:/opt/vllm_ext:ro
environment:
PYTHONPATH: /opt/vllm_ext
command: "--model Qwen/Qwen3.5-35B-A3B-FP8 --reasoning-parser qwen3 --logits_processors thinking_budget_logitproc:ThinkingTokenBudgetLogitsProcessor"
curl http://localhost:8000/v1/chat/completions \Читать полностью…
-H "Content-Type: application/json" \
-d '{
"model":"Qwen/Qwen3.5-35B-A3B-FP8",
"messages":[{"role":"user","content":"Привет!"}],
"max_tokens":300,
"vllm_xargs":{"thinking_token_budget":1024}
}'
You are absolutely right!* 🤝
В рамках random coffee спикеров ROИИ созвонились с Рефатом.
Он со-основатель агентства по AI-автоматизациям, и фаундер стартапа. При этом сам много работает руками и разбирается в вещах - за что отдельное уважение.
Прошлись по нескольким темам:
MaaS vs локальные модели - у кого какой опыт, когда это реально оправдано, а когда просто игра в ентерпрайз. У Рефата есть хороший разбор на тему того, почему пропасть между "просто скачал веса" и нормальным продакшен-решением - огромная, а я говорил про это на прошедшей конфе.
Вайбкодинг vs AI-assisted разработка - обсудили, почему эти два понятия склеились в одно слово, хотя это разные вещи. Пост на эту тему с конкретными кейсами от Uber, Spotify, Block.
Поговорили про очистку ПД перед передачей в LLM, про поиск с помощью агентов в 2026, посетовали 👨🦳 на скудность "доступных" LLM провайдеров , порадовались возможности делать "вещи" руками и погружаться в контекст, благодаря AI.
И конечно кейсы над которыми сейчас работаем.
В общем, «плюс вайб» - как говорят зумеры (ладно, Рефат сам так написал:)
Очень рекомендую канал - один из тех, где автор разбирается сам, прежде чем публиковать.
* - знаменитая футболка, про которую мне рассказывали не менее 5 человек.
Дипсик можно не ждать.
Qwen опять выкатили модель, которую все будут использовать ближайшие полгода.
Qwen3.5-397B-A17B
Кратко:
- Гибридная архитектура как у Qwen-Next (Gated Delta+MoE).
Те скорость будет очень хорошей относительно конкурентов. Я давно порывался написать хвалебные отзывы на Qwen-Next, который выдает 140токенов/сек на A100 при условии квантизации AWQ и при этом отвечает лучше того же Qwen3-32b(dense), но уже видимо поздно.
- VL под капотом, понимание изображений лучше чем qwen3-vl.
- По бенчмаркам (тут не особо верим, но надеемся) - на уровне gpt 5.2 и opus 4.5
- Можно запустить на своем ноутбуке с 4xH100. Да тут я троллю
Ждем квантизаций и мелких собратьев.
Кэш кэш кэш...
Есть одна история, которая сильно влияет на экономику и скорость llm в проде и при этом имеет, на первый взгляд одновременно супер простое применения. Как это модно называть «быстрая победа».
Я про префикс-кэш (prefix_cache).
Идея одним предложением: если начало вашего запроса к модели повторяется - вы перестаёте каждый раз заново “прогревать” модель этим началом. И внезапно улучшается и latency, и cost.
И я искренне удивляюсь, когда инженеры-строители ai-сервисов пренебрегают этим*
Это же не 3% оптимизации (хотя конечно 3% это тоже очень много), а жирная ручка, которая при правильной архитектуре запроса позволяет сэкономить десятки процентов костов.
Попадать в кэш (cache hit rate) настолько важно, что про это пишут уважаемые дяди и компании в своих статьях:
- В летней статье Manus, про опыт вынесенный с построения их агента, первое по важности о чем говорит автор - попадать в кэш.
- Тиктоки рассказывают как оптимизировали своего внутреннего ai-агента и получили 40–50% экономии "за считанные строки кода".
По факту все что нужно сделать это:
1. Следить за тем чтобы префикс был стабильным. Классика жанра - timestamp где-нибудь в начале. Дату указали, скидку отменили.
2. Контекст по возможности наращиваем (Append-only).
3. В случае с локальным хостингом чуть сложнее - нужно самим регулировать куда вести запросы так чтобы они лучше попадали в кэш (тут помогут всякие ray serve, или хотя бы разделение пулов с инстансами vllm).
4. В случае с maas - соблюдать условия кэша (напр. OpenAI кэширует автоматом одинаковый префикс больше 1к токенов в запросах чаще 5 минут), либо помечать блоки кэша насильно (Claude и один из вариантов кэшей Gemini).
*Ладно, еще удивляют 2 другие вещи по кэшу:
- Вендоры которые не предоставляют возможность использовать префикс кэш (у OpenAI, Anthropic и Гугла он есть)
- Люди которые считают стоимость модели по стоимости токенов без учета скидки за кэш у вендора
Все собрал? Но какой ценой? (с)
Продолжая историю о том, как стал двигаться в сторону единого слоя памяти для используемых аи-инструментов.
С сервисом памяти я определился, теперь же возникла необходимость забрать из ChatGPT диалоги. Хотя бы за последние пол года (считаю что если в течении полугода что-то не появлялось в контексте, вероятность того что мне оно понадобиться крайне мала).
Я был уверен что у сервиса есть возможность "легально" вытащить все свои диалоги (спасибо GDPR).
Но вот незадача - похоже тариф Team (он же "бизнес") в ChatGPT в какой-то серой зоне, между персональным и ent. Прикол в том, что при попытке выгрузить свои чаты через их стандартный privacy-portal (доступно для Plus) мне приходит отбивка "Вы Ent-клиент, используйте Compliance APII". Но для API нужен ключ который у меня так и не получилось достать (ох уж эти понятные IT системы, да?).
Решение
И вроде можно было бы навайбкодить скрипт, чтобы вытянуть чаты прям из браузера, но мне только что показали свежую програмку от Байрама - Retain. Задумка там конечно глубже (почитайте), но для меня в моменте было главным, что с помощью нее можно через ui интерфейс быстренько выгрузить все диалоги из ChatGPT, Codex, Claude. После чего все бережно складывается в бд на ноуте.
А еще там же интересная аналитика и быстрый поиск по этим самым диалогам.
Быстренько не совсем получилось, тк мое прошлое в QA(это я так оправдываю то что все ломаю) дало знать о себе и синхронизация на Team тарифе сходу не запустилась (понять можно, таких извращенцев, кто для личных целей использует корп тариф еще поискать надо). Я сделал PR c фиксом, который был оперативно принят, за что отдельное спасибо.
Тулза кстати также подтягивает диалоги из Claude Code, Cursor, OpenCode, Gemini и тд. Короче как говорил Танос "Все собрал".
А что дальше? Буду парсить диалоги чтобы отправить их в Hindsight)
Память для AI за 3 минуты
Как любой "нормальный" ai-энтузиаст, с самого начала работы с llm(еще с gpt 3.5), я раздумывал о системе внешней памяти, которая будет являться уникальным контекстом для всяческих ai-powered систем с которыми я работаю.
Видел как многие делали системы под себя, как возникали и умирали проекты с этой историей, но ничего такого что можно было побыстрому заиспользовать я не находил.
А потом в ChatGPT появилась память... а потом память по чатам... И как бы вроде вопрос с одной стороны был более менее закрыт, а с другой - наличие памяти по чатам было веским аргументом для меня даже не рассматривать других ассистентов как альтернативу основному ai-бадди.
И вот несколько месяцев назад ChatGPT решил выпилить из тарифа Team (на который я перешел с пол года назад) память между чатами 😡
Собственно это и стало волшебным пинком под зад, благодаря которому я пошел смотреть - а не появился ли какой нибудь простой и эффективный сервис который чтобы эту самую память себе поднять.
И у Кости Доронина в канале встретил такой сервис как Hindsight. Еще Костя пишет про другую альтернативу - Graphiti (у него там целая серия), более пригодную под различные кастомизации, но сам же объяснил что Hindsight как раз выигрывает быстрым стартом и работой из коробки. Это меня изначально и подкупило.
И пошел я сначала его ресерчить, а потом разворачивать у себя.
Кратко про сервис внутри:
- Заточен специально под историю памяти АИ ассистентов
- Сохраняет поступающие данные, разбивая их на сущности, помечая тэгами, связывая между собой и проставляя временные метки(которые учитываются в тч для определения актуальности "памяти")
- Под капотом сематинтический поиск, поиск по ключевикам, граф и темпорального поиск
- Все это на основе старого доброго PostgreSQL с расширением pgvector
Делит все данные на 3 типа памяти:
1. Факты о мире - "плита горячая"
2. Опыт и события - "Я коснулся плиты, и мне было очень больно")
3. Мнения - "мне не стоит снова прикасаться к плите" (уверенность 0.99)
4. Выводы - "плойки, духовки и огонь тоже горячие. Мне не стоит их трогать"
Что по интерфейсам:
- API (retrain, recall, reflect)
- UI (красивое, можно удобно посмотреть что там в памяти, как связано и потестить вопросами, добавить данные вручную (я например скормил заметки и посты из моего тг которые дают основную информацию достаточную для старта)
- MCP (встроенный, поднимается сразу вместе с сервисом)
Что по запуску:
В поставке есть все что нужно, остается только указать какую модель использовать (я тестил на локальных gpt-oss-120b/20b).
Поднимается все с полпинка на локальной машине. Буквально docker run с указанием параметров доступа к модели, и сервис готов, включая MCP. Остается только прописать адрес MCP в ассистентах. В моем случае это Warp и codex, дальше буду думать как прицепить его к ChatGPT (там все чуть сложнее тк нужен сервис в облаке, OAuth и вот это вот все).
По итогу:
Тестирую 4ый день - мне зашло. Это заявочка на еще один сервис в копилку.
У Hindsight планируется и облачное решение, но пока только вэйтлист.
П.с. Если пользуетесь чем-то кастомным (кроме памяти в ChatGPT, Gemini и тд) - приходите в коменты, интересно.
Еще один 100% маркер ИИ-генерированного текста:
«современные модели вроде GPT-4…»
Инструменты
Меня часто не спрашивают о том какими ai-инструментами я пользуюсь в повседневе, поэтому новый год я решил начать именно с поста об этом.
Под таким хайповым понятием я подразумеваю софт, который в основе имеет именно AI-составляющую, без которой он либо не существовал бы, либо не представлял бы интереса.
За прошлый год список таких инструментов изменился процентов на 50.
1. Базой которой я пользуюсь больше всего так и остался ChatGPT с подпиской (правда теперь team вместо plus) со всеми вытекающими - веб, мобила, декстоп приложение.
Этот "джин" всегда со мной рядом, и за 3 года вобрал уже столько полезного контекста, что в момент потери чатов с ним, я готов был пустить скупую мужскую слезу по павшему собрату.
2. Сюда же Codex CLI, который является по факту единственным код инструментом который я использую. Последняя модель (5.2) с хай ризонинг и правильным подходом() меня удивляет. Возвращаюсь потом в обычный чатик с гпт и думаю «ну какой же ты тупой…».
Ладно, чуть соврал - еще пользуюсь Codex Cloud, если вдруг совсем не втерпеж и только для простых задачек. Ну и применяю изменения в основном все равно через CLI.
3. Warp AI - эти ребята забирают половину премии «открытие 2025 года».
Это вторая подписка, которую оплачиваю ежемесячно уже достаточно давно. Мой ai-moment в решении задач с инфраструктурой, логами и тд.
Кроме того, что сам разберется с тем почему приложение не может достучаться до соседнего хоста(на самом деле ответ тут - потому что сам дурак) , так еще и классный автокомплит команд терминала. Ну и говорят умеет неплохо кодить, но я толком не проверял.
4. NotebookLM.
Забирает вторую половину «открытия года».
И если начинали они просто c удобного способа «початиться» с набором источников (ссылки, пдф и тд) - то сейчас это классный комбайн для организации «знаний».
При этом знания, это не только про обучение, в привычном смысле. Для меня частый кейс это - закинуть туда собранный набор статей, подкастов и тд, чтобы разобрать определенную тему.
Но также классный кейс для меня - взять из репы readme.md, architecture.md (и еще какой-нибудь *.md) и получить по проекту/фиче презентацию или сразу видео(да видео. да нормальное) на понятном для стейкхолдеров языке.
5. DeepResearch.
Да, входит в другие инструменты/сервисы/подписки, и по факту не является таким самостоятельно (ну если только perplexity или parallels).
В моем случае это чаще всего комплексный подход - как уже писал, закидываю задания на ресерчи в несколько сервисов, по результатам которых собираю итог.
Что потерялось:
1. Перестал толком пользоваться perplexity (примерно с выхода o3) и elevenreader (перестал слушать переводы книжек/статей).
2. Так и не открыл для себя пользу хайповых аи-браузеров и manus (ну кроме их великолепных статей про агентов),
3. Других ассистентов использую реже, скорее либо чтобы более объемно подойти к вопросу/задаче (как с дипресерч), либо чтобы убедиться что другие модели тоже не могут справиться с моей задачей).
4. Ну и совсем подзабросил генерацию видео/аудио/изображений в том объеме как это было раньше. Пропал интерес.
Есть полезный инструмент которым пользуетесь в повседневных задачах? Велком в коменты.
Хочешь насмешить Бога подписчиков - расскажи им свои планы хорошенько выкладывать контент.
Так и я - праздники провожу с какой-то лютой ангиной. Утешаю себя тем, что это я сам позволил себе поболеть. В другое время некогда)
И пока извлекать умные мысли из головы нет сил - держите классный пост Коли с прогнозами на 2026.
Не зря похоже со skills разбирался, пригодиться в 26)
Пока ресерчил agent skills наткнулся на интересный кейс организации "коллективной памяти".
В Sionic AI столкнулись с типичной проблемой, когда ценные знания оседают в личных заметках и чатиках, и при этом теряется важная фактура, полученные ошибки и наоборот сработавшие штуки.
Как решение они добавили в claude code две команды retrospective и advise.
Работает это так:
1. Ты ведёшь нормальную рабочую сессию с Claude Code
2. В конце делаешь /retrospective и Claude сам собирает skill-пакет: SKILL.md + скрипты/референсы и оформляет PR в общий репозиторий
3. Перед новым сеансом делаешь /advise. Claude ищет по skill-реестру и возвращает конкретику: параметры, окружение, куски кода, и "я пробовал X, сломалось из-за Y"
Интересная мысль из кейса: самые полезные skills - скорее про фейлы, чем про успехи.
У документации обычно наоборот: на основе фейлов строиться в лучшем случае пункт "самые частые ошибки", а тут же боль становится активом команды.
#300токеноввсекунду #300tks
Про гибридные резонеры
Помните писал тут про выход Qwen3 с возможностью переключаться между ризонинг/не ризонинг режимами просто добавляя в промпт /think или /no_think?
Наткнулся тут на летнюю статью от Alibaba, в которой они рассказывают о том что пришли к выводу - гибридные резонеры ведут себя по качеству хуже чем аналогичные модели, что явилось причиной отказа от такого решения в пользу отдельных instruct и thinking. Собственно я заметил что модели вновь стали раздельными, но не ресерчил почему именно.
Из интересного.
Тренировка аналогичных моделей но в «раздельном формате» привела к улучшению:
+ х2.8!!! У non-thinking instruct модели Qwen3-235B-A22B относительно апрельской (которая была гибридом)
+ 13-54% у thinking-tuned версии
Конечно стоит отметить что это замеры на математическом бенчмарке AIME25, и даже сам автор делает дисклеймер что замерам вендоров доверять нельзя (ха-ха). Но тем не менее выглядит впечатляюще.
Что сказать из опыта в проде гибридов?
На словах это прекрасно. Захотел запрос отправил с ризонингом, захотел без ризонинга… очень удобно.
Но по факту, если мы говорим о сервисе под большой нагрузкой, то кидать все запросы, разные по сложности в одну модель - так себе вариант.
Если на пальцах объяснять: при параллельной обработке (с чем прекрасно и справляется тот же vLLM) большие ризонинг запросы тормозят обработку мелких «не ризонинг» запросов, и в итоге сценарии, где мы можем и хотим получать супер скорость (чат и простые сценарии типа саммаризации, экстракции данных и тд) замедляются. И чем больше преобладание больших запросов - тем больше это заметно. Иногда драматично.
Плюс при разной величине запросов логично сделать разные настройки самого движка инференса(напр. max-num-batched-tokens) подходящим под них.
Те один фиг - разделять эти запросы на разные машины.
Ну и зачем тогда гибрид?)
Поста (даже такого длинного) мне не хватило, развил тему до статьи на Хабр.
Читать тут.
И хорошего дня)