ai_for_devs | Unsorted

Telegram-канал ai_for_devs - AI for Devs

10359

ТГК для разработчиков: ассистенты, плагины, IDE, практические кейсы и свежие новости. Всё, что помогает писать код быстрее и умнее. In love with: @python_for_devs, @go_for_devs, @js_for_devs

Subscribe to a channel

AI for Devs

🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей

Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.

Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.

🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.

🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.

🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.

🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.

🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.

🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.


TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.

@ai_for_devs

Читать полностью…

AI for Devs

До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.

ИИ полностью изменил правила игры.

Теперь у меня их 15-20.

Читать полностью…

AI for Devs

⚡️ OpenCode – самый быстрорастущий AI-агент для кодинга

Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.

Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.

Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.

@ai_for_devs

Читать полностью…

AI for Devs

"Я слышала на него работает 30 ИИ-агентов"

Читать полностью…

AI for Devs

AI-дайджест для тех, кто сегодня впервые открыл лэптоп. Главные события первой недели 2026 года:

🟣 DeepSeek предложили новую вариацию трансформера. Китайский стартап DeepSeek готовит к выпуску DeepSeek V4, которая по неофициальным данным может превзойти Claude и GPT в задачах программирования за счёт улучшенной работы с очень длинным контекстом и ориентированной на практических инженеров архитектуры.

🟣 Как использует Claude Code создатель Claude Code. Он запускает несколько сессий одновременно в разных средах и использует уведомления для синхронизации. Для повышения продуктивности применяет только режим Opus 4.5 и документ CLAUDE.md для фиксации ошибок.

🟣 Cursor полностью переходят на динамический контекст для всех моделей. Теперь контекст содержит ссылки и "оглавление", а полные данные хранятся в отдельных файлах. Такой подход снижает переполнение контекста и позволяет агенту извлекать нужную информацию. В тестах потребление токенов уменьшилось на ~46.9%.

🟣 AI-индустрия убила бизнес Tailwind CSS. Компания сократила 75% разработчиков. Изменения в ландшафте генерации интерфейсов с ИИ привели к уменьшению спроса на Tailwind.

🟣 Claude Code ограничили использование своих моделей в других решениях по типу OpenCode. Anthropic ввёл ограничения на интеграцию моделей Claude Code в сторонние приложения: это влияет на экосистему инструментов с открытым использованием моделей.

🟣 Линус Торвальдс стал вайбкодером. Он применяет новую ИИ-IDE Antigravity от Google для разработки визуализатора.

@ai_for_devs

Читать полностью…

AI for Devs

Правда, к сожалению 🥲

Читать полностью…

AI for Devs

⚡️ Anthropic выкатили нативную поддержку Language Server Protocol (LSP) для Claude Code

LSP даёт агенту доступ к семантике кода: переход к определениям, поиск ссылок, типов и символов на уровне полноценной IDE.

Сейчас CLI-агенты опираются на grep и эвристики контекста, что плохо масштабируется при рефакторинге больших кодовых баз.

Интеграция с LSP должна помочь решить эту проблему.

@ai_for_devs

Читать полностью…

AI for Devs

🤡 Если работаешь сегодня
💩 Если отдыхаешь

Читать полностью…

AI for Devs

⚡️ Вслед за MCP Anthropic заопенсорсили Skills

Anthropic продолжает последовательно выносить ключевые элементы агентной архитектуры в открытую экосистему.

Вслед за MCP компания заопенсорсила Agent Skills — открытый стандарт для описания и распространения повторяемых агентных workflows между AI-платформами.

Что такое Skills и зачем они нужны

Skills — это формализованные сценарии действий агента: цепочки инструкций, доступ к инструментам, файлам и вычислениям, которые можно переиспользовать и переносить между средами.

Идея в том, чтобы:
• отделить логику работы агента от конкретной модели;
• сделать навыки воспроизводимыми и проверяемыми;
• упростить распространение лучших практик внутри организаций и экосистемы.

До сих пор подобные механики существовали либо в виде проприетарных prompt-шаблонов, либо как внутренняя логика конкретных фреймворков. Agent Skills пытается зафиксировать это на уровне стандарта.


Anthropic также запустила каталог skills, доступный на claude.com/connectors. На старте в нем представлены навыки от партнеров, включая: Notion, Canva, Figma, Atlassian и другие SaaS-платформы.

@ai_for_devs

Читать полностью…

AI for Devs

⚡️ OpenAI выпустили GPT-5.2-Codex

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах

Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.

Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.

Карточка модели

@ai_for_devs

Читать полностью…

AI for Devs

😎 Вайбкодим с плагином Kilo Code в VS Code и IntelliJ IDEA из России

В новой статье разбираемся, как организовать вайб-кодинг с плагином Kilo Code в VS Code и IntelliJ IDEA из России.

Пошагово настраиваем Kilo Code через RouterAI, подключаем Claude, GPT, DeepSeek и другие модели, разбираем роли агента, diff-патчи, правила проекта и нюансы работы с контекстом.

📚 Читайте и комментируйте на Хабр.

@ai_for_devs

Читать полностью…

AI for Devs

Подготовили перевод статьи о том, почему стоимость разработки может упасть на 90% — и как агентные инструменты уже меняют экономику создания софта.

Проект, который занимал месяц, теперь занимает неделю. Время на продумывание остается примерно тем же, но время реализации схлопнулось. И с меньшими командами включается обратная версия Закона Брукса: вместо того чтобы накладные расходы на коммуникацию росли с численностью команды, они исчезают. Небольшая группа людей внезапно может делать на порядок больше.


Когда цена падает на порядок, каждая Excel-таблица внезапно становится потенциальным SaaS. Компании, которые раньше могли позволить себе автоматизировать 5 процессов, теперь смогут автоматизировать 50.

На этом фоне единственным устойчивым преимуществом становится экспертиза в домене. Пара «инженер + глубокое понимание бизнеса» превращается в сверхпродуктивный тандем.

📚 Читайте и комментируйте на Хабр.

@ai_for_devs

Читать полностью…

AI for Devs

Нашли бесплатный плагин для VS Code с LLMками (DeepSeek, Gemini, Qwen).

Поддерживает агентный режим и есть утилита для CLI.

Забираем по ссылке.

@ai_for_devs

Читать полностью…

AI for Devs

🪲 Cursor представили Debug Mode

В версии Cursor 2.2 появился отдельный режим работы агента, основанный не на угадывании фиксов, а на сборе реальных рантайм-логов и обязательной человеческой верификации.

Работает это следующим образом:

1. Агент генерирует несколько гипотез о причинах бага, а не сразу пишет патч
2. Сам вставляет логи в код, чтобы проверить свои гипотезы в рантайме
3. Как только баг воспроизвелся, разработчик должен его подтвердить
4. На основе воспроизведенного бага формируется точечный фикс — обычно 2–3 строки вместо перелопачивания всего проекта
5. Финальная проверка тоже через человека: если баг не исчез, агент добавляет больше логов и возвращается на первый шаг

А ещё представили фичу multi-agent judging: при параллельном запуске нескольких агентов система сама выбирает лучшую реализацию и объясняет, почему выбрала именно её.

@ai_for_devs

Читать полностью…

AI for Devs

🧠 Anthropic показала, как заставить ИИ-агентов работать часами и днями без потери прогресса

По сути, они воспроизвели то, что в обычной разработке давно стало стандартом де-факто: структура проекта, git, список фич и строгие тесты)) Но для кодинг-агентов это что-то новенькое. Сейчас их действительно довольно сложно держать в ежовых рукавицах.

Их решение — разделить роли: Initializer готовит проект и полный перечень фич (получается, тимлид), а Coding Agent (работяга) в каждой сессии берёт одну задачу, делает минимальные изменения и оставляет репозиторий в рабочем состоянии. Плюс строгое JSON-описание требований и браузерные E2E-тесты через Puppeteer.

В итоге получается почти бесконечная разработка без деградации между сессиями: каждый агент приходит «на смену» и сразу понимает, что сделано и что сломано.

Интересно смотреть, как ИИ-системы постепенно приходят к тем же процессам, которые программисты давно считают базовым минимумом)

Источник. @ai_for_devs

Читать полностью…

AI for Devs

⚡️ В англоязычном интернете активно обсуждают возможный скорый выход GPT-5.3

Что сейчас известно из утечек и наблюдений:

— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели

— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду

— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза

@ai_for_devs

Читать полностью…

AI for Devs

🦙 Claude Code теперь работает с локальными open-source моделями

Ollama v0.14+ получила совместимость с Anthropic Messages API. Благодаря этому Claude Code можно запускать с любыми моделями из Ollama — локально или через Ollama Cloud.

Поддерживаются streaming, tool calling, system prompts и vision. Достаточно указать Ollama как base URL — код менять не нужно.

Рекомендуются модели с контекстом от 64k токенов (gpt-oss:20b, qwen-coder, glm-4.7).

@ai_for_devs

Читать полностью…

AI for Devs

В Cursor научились запускать сотни автономных ИИ-агентов, которые неделями пишут код над одним проектом.

Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.

Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.

Заапрувили бы такой PR?)

UPD: LGTM :D

Читать полностью…

AI for Devs

⚡️ Anthropic представили Cowork — упрощённый агентный режим для задач не связанных с кодом

Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.

Для продвинутых сценариев Cowork умеет:
— использовать существующие коннекторы к внешним данным
— применять встроенные skills для документов и презентаций
— работать вместе с Claude в браузере (например, для задач с веб-доступом)

Интересная деталь — модель взаимодействия. Задачи можно ставить параллельно, не дожидаясь завершения предыдущей, и дополнять их по ходу.

При этом Anthropic довольно честно проговаривают риски. Агент может выполнять разрушительные действия (вплоть до удаления файлов), если его об этом попросить. Плюс остаётся классическая проблема prompt injection — особенно при работе с интернет-контентом.

@ai_for_devs

Читать полностью…

AI for Devs

🎄 Итоги года 4Devs 2025

На прошлой неделе Habr опубликовал итоги года — и наш проект попал в ТОП-2 среди UGC-авторов (независимых, не аффилированных с компаниями) и в ТОП-8 overall!

Учитывая, что активно публиковаться мы начали только в сентябре, результат за один квартал, на мой взгляд, более чем достойный. Проект изначально запускался как эксперимент — и теперь уже можно уверенно сказать, что эксперимент удался.

В следующем году постараемся как минимум сохранить текущие темпы, а как максимум — заметно их преумножить. Если вы следите только за одним из каналов проекта, напоминаю полный список наших ресурсов:

@ai_for_devs — флагман проекта. Неудивительно, учитывая взрывной рост прикладного ИИ именно для разработчиков
@go_for_devs — второй по популярности, но самый активный по вовлечённости
@python_for_devs — канал, с которого всё началось, и этим он прекрасен
@js_for_devs — здесь всё ещё впереди. Если вы из frontend-мира — добро пожаловать, догоним остальных 🙂

Суммарно за проектом уже следит более 6.5 тысяч человек!

Поздравляю всех с наступающим Новым годом и желаю профессионального роста и сильных результатов в 2026!

Читать полностью…

AI for Devs

А вы знали, что у JetBrains есть Junie CLI?

Я тоже — нет. А он jetbrains/junie-cli?activeTab=readme">есть. И сегодня он занял первое место на Terminal-Bench 2.0.

Terminal-Bench — это бенчмарк для оценки агентных систем, которые работают в терминале: внутри контейнера агенту нужно выполнять команды, писать и править скрипты, устанавливать зависимости, дебажить окружение и доводить задачу до рабочего состояния.

В отличие от reasoning-бенчей, здесь проверяется прикладная инженерная компетенция — умение планировать действия, взаимодействовать с терминалом, справляться с ошибками среды и получать воспроизводимый результат.

@ai_for_devs

Читать полностью…

AI for Devs

🔥 Китайцы снова радуют. Вышла GLM-4.7 – заметный апгрейд именно для агентного кодинга

Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.

По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).

Ключевое отличие GLM-4.7 — работа с мышлением. Модель использует interleaved thinking (думает перед каждым действием), а в агентных сценариях сохраняет reasoning между ходами. За счёт этого длинные цепочки команд в терминале и IDE становятся заметно стабильнее: меньше дрейфа контекста и меньше «переизобретений» одного и того же шага.

Модель уже доступна через API Z.ai и OpenRouter, а веса выложены публично.

@ai_for_devs

Читать полностью…

AI for Devs

😎 Вчера Anthropic завершили неделю, научив Claude Code взаимодействовать с браузером

Модель не только пишет код, но и читает DOM, видит ошибки в консоли и проверяет поведение фич прямо в браузере.

Забираем тут.

@ai_for_devs

Читать полностью…

AI for Devs

🔥 Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями (без математики тоже не обошлось 🫠).

Вот как сам автор описал свою статью и мы с ним полностью согласны:

Не удовлетворившись ответами в документации вендоров ПО для разработчиков, которые хорошо объясняют, как пользоваться кэшированием промптов, но аккуратно обходят вопрос о том, что именно кэшируется, я решил копнуть глубже.

Я нырнул в кроличью нору устройства LLM, пока не понял, какие именно данные провайдеры кэшируют, для чего они используются и как это делает всё быстрее и дешевле для всех.

К концу этой статьи вы:

– глубже поймёте, как работают LLM
– сформируете новую интуицию о том, почему LLM устроены именно так
– разберётесь, какие именно нули и единицы кэшируются и как это снижает стоимость ваших запросов к LLM


📚 Читайте и комментируйте на Хабр.

@ai_for_devs

Читать полностью…

AI for Devs

⚡️ Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка

По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.

При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.

Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.

@ai_for_devs

Читать полностью…

AI for Devs

Резонансное расследование показало: популярные VPN-расширения для браузеров долгое время собирали и продавали переписки пользователей с ИИ-чатами — включая ChatGPT, Claude и Gemini.

Речь не о ноунеймах. Urban VPN Proxy — 6+ млн установок, рейтинг 4.7, значок Featured(!) от Google и Microsoft. Бесплатный VPN, обещающий приватность. На практике — полный перехват ИИ-диалогов.

Расширения внедряли скрипты прямо в страницы ChatGPT, Claude и других ИИ-платформ и перехватывали сетевые запросы на уровне браузера. Это позволяло им видеть весь диалог целиком — промпты, ответы, метаданные и идентификаторы сессий — и отправлять эти данные на собственные серверы и дата-брокерам. Сбор работал постоянно, не зависел от включённого VPN и не отключался в настройках: остановить его можно было только удалением расширения.

Механизм добавили тихим обновлением в июле 2025 года, которое автоматически установилось у пользователей Chrome и Edge. Сбор данных при этом маскировался под функцию «AI-защиты»: она якобы предупреждала о рисках, но на практике не мешала передаче диалогов третьим сторонам. Один и тот же код использовался в нескольких расширениях со статусом Featured, затронув суммарно более 8 миллионов пользователей.

Если продукт бесплатный и непонятно, на чём он зарабатывает – зарабатывает он на тебе 🙂


@ai_for_devs

Читать полностью…

AI for Devs

За последнюю неделю несколько новостей было опубликовано благодаря вашим сообщениям в личку канала. Ещё раз спасибо!

Если наткнулись на интересный топик/новость/обсуждение – скидывайте, будем рады рассказать об этом тут и на Хабре.

@ai_for_devs

Читать полностью…

AI for Devs

⚡️ OpenAI представили GPT-5.2

🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified
🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.

GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.

По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.

Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)

@ai_for_devs

Читать полностью…

AI for Devs

OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).

Ключевые выводы 👇

🟣 Open source закрепился на ~30% и привёл с собой Китай. Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.

🟣 "Medium is the new small": рынок смещается к 15–70B. Маленьких моделей много, но их доля в использовании падает. Реальный рост — в medium-классе (15–70B): Qwen2.5 Coder 32B, Mistral Small 3, GPT-OSS 20B.

🟣 Главные use-cases для OSS: roleplay и кодинг. У открытых моделей: Roleplay ≈ 50%+ токенов: игровые сценарии, персонажи, фанфик-миры, «длинные» диалоги. Programming — второй по величине сегмент. Китайские OSS сдвинуты ещё сильнее в практику: у них roleplay уже не доминирует, а кодинг + технологии = ~39% нагрузки.

🟣 Agentic inference стал нормой, а не экспериментом. Reasoning-модели обслуживают уже >50% всех токенов. Растёт доля запросов с tool-calling, появляются модели заточенные «под агентность». Средний запрос стал длинным: prompt вырос ~с 1.5K до >6K токенов, completion почти утроился.

🟣 Программирование стало "killer-категорией": 11% → >50% токенов. В начале 2025 года программирование ≈ 11%, в последние недели — уже больше половины трафика. Лидирует Claude: стабильно >60%. OpenAI вырос с ~2% до ~8%, Google удерживает ~15%. OSS (Qwen, Mistral, DeepSeek и др.) активно захватывают mid-tier, MiniMax растёт особенно быстро.

🟣 Roleplay и кодинг по объёму сопоставимы. Если вы думали, что LLM — это «про работу и B2B», данные показывают: развлекательные/эмоциональные сценарии не менее масштабны.

🟣 География: Азия резко догоняет, язык почти полностью английский. По континентам (share по токенам): Северная Америка: 47%, Азия: ~29% (было ~13%, стало ~31% в неделях под конец), Европа: ~21%. По языкам: английский ≈ 83%, далее упоминаются китайский, русский, испанский.

🟣 Рынок почти не чувствителен к цене. Дорогие модели вроде Claude Sonnet стоят около $2 за 1M токенов и всё равно получают огромные объёмы, дешёвые «рабочие лошадки» вроде Gemini Flash и DeepSeek V3 стоят меньше $0.4 и загружаются сопоставимо, ультрадорогие GPT-4/5 Pro по $30–35 используются для узких задач, а сверхдешёвые OSS-модели за $0.03–0.05 остаются нишевыми. Цена сама по себе не решает: критичны качество, стабильность и интеграции.

🟣 "Glass Slipper": когда модель идеально попадает в задачу, её уже не меняют. У frontier-моделей есть короткий момент, когда они впервые закрывают болезненный workload и формируют «фундаментальную» когорту, которая остаётся надолго. Так случилось у Claude 4 Sonnet и Gemini 2.5 Pro с retention около 40% на 5-й месяц. У моделей без такого момента (например, Gemini 2.0 Flash или Llama 4 Maverick) устойчивых когорт не возникает. У DeepSeek заметен «бумеранг»: пользователи пробуют альтернативы и возвращаются, подтверждая, что именно он лучше решает их задачу.


@ai_for_devs

Читать полностью…
Subscribe to a channel