48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
Claude идет в финансы с готовыми агентами
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.
На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация
профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру
решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно
проверять руками?
Участников ждет честный опыт технологических компаний и много нетворкинга.
Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.
Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
В Reels снова сделали «шокирующее открытие».
Скорее всего, просто для постройки использовали ChatGPT.
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии
Anthropic выкатили исследование, которое стоит прочитать каждому, кто работает с LLM в продукте. Команда проанализировала миллион реальных диалогов в claude.ai и выяснила, что около 6% разговоров это не код-ревью и не саммари митингов, а прямые вопросы вроде «стоит ли мне уволиться», «как поговорить с тем, кто мне нравится», «переезжать ли через полмира». Люди приходят к модели за советом по жизни, и это меняет требования к safety и поведенческому файнтюну сильнее, чем кажется.
Где люди ищут совета у Claude
Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самым человеческим вопросам.
Основная проблема, которую измеряли исследователи, это сикофантия или по нашему подлизывание. Это когда модель соглашается с пользователем, хвалит его без оснований и подтверждает сомнительные решения, вместо того чтобы возражать и давать честную обратную связь. В среднем по всему датасету сикофантское поведение встречалось в 9% диалогов, но в разрезе тематик всплыли сильные пики. В разговорах про духовность модель подлаживалась под пользователя в 38% случаев, в разговорах про отношения в 25%. Поскольку романтических запросов просто больше по объёму, именно эта область выдаёт больше всего сикофантии в абсолютных числах.
Именно в разговорах про отношения пользователь чаще всего давит на Claude. Давление от пользователя в 21% диалогов против 15% в других доменах. И когда человек начинает спорить или засыпать модель однобокими деталями, вероятность сикофантии вырастает в два раза, с 9% до 18%. Логика понятна: модель обучали быть эмпатичной и полезной, и когда она слышит только одну сторону конфликта и сверху получает эмоциональный нажим, нейтральную позицию держать становится тяжело.
Как Anthropic перепрошили поведение модели
Для новых моделей Opus 4.7 и Mythos Preview команда собрала типичные паттерны давления на модель. На их основе сгенерировали синтетические сценарии по отношениям. Дальше берётся два ответа Claude на один сценарий, а сепаратная копия модели выставляет оценку, насколько ответы соответствуют конституции Claude. Такой сигнал идёт обратно в файнтюн. Проверали результат стресс-тестом: берут реальные проблемные диалоги со старыми версиями, подкладывают их новой модели через prefilling, будто это её собственные прошлые реплики, и смотрят, сможет ли она вырулить из сикофантской траектории.
Результаты измеримые: в Opus 4.7 сикофантия в разговорах об отношениях упала вдвое по сравнению с Opus 4.6, и эффект сгенерализовался на все другие домены. Качественно новые модели лучше видят большую картину за начальной формулировкой пользователя, ссылаются на свои же предыдущие реплики и не боятся выдавать ответ в духе: данных недостаточно, вывода делать не буду.
Недавнее исследование UK AI Security Institute показало, что люди охотно следуют советам ИИ даже в высокорисковых ситуациях. В выборке Anthropic встретились вопросы про дозировки лекарств, долги по кредиткам, иммиграционные маршруты и уход за младенцами. Часть пользователей прямо пишет, что идёт к модели, потому что живой специалист недоступен или дорог. Для любого продуктового команды, встраивающей LLM в чат с живыми людьми, это сигнал: проверяйте не только фактологию ответов, но и их эмоциональный режим. Сикофантия выглядит безобидно в метриках вроде user satisfaction, но в долгую бьёт по реальным решениям пользователя.
Полный разбор и графики доступны в оригинальной статье Anthropic: https://www.anthropic.com/research/claude-personal-guidance
Claude уже тестируют не на задачках, а на реальной биоинформатике
Anthropic выкатила BioMysteryBench - новый benchmark для проверки того, насколько Claude способен решать настоящие научные задачи в биологии.
. Модель получает реальные noisy-датасеты, инструменты для анализа, доступ к bioinformatics-базам вроде NCBI и Ensembl, возможность ставить пакеты через pip и conda - и должна сама разобраться, что происходит в данных.
Внутри BioMysteryBench - 99 задач из разных областей биоинформатики.
Например: определить орган по single-cell RNA-seq данным, понять, какой ген был knocked out, найти родителей образца по WGS-секвенированию или определить тип клетки по ChIP-seq peaks.
Anthropic специально делала benchmark так, чтобы оценивался не путь решения, а финальный ответ. Потому что в науке часто нет одного «правильного» метода. Один исследователь пойдёт через GWAS, другой через microbiome, третий через метаанализ. Важно не то, каким маршрутом ты пришёл, а смог ли ты добраться до верного вывода.
Claude быстро улучшается от поколения к поколению, а текущие модели на части задач идут на уровне human experts. Более того, Claude Sonnet 4.6 и более сильные модели смогли решить заметную долю задач, с которыми не справилась группа из пяти профильных экспертов. Claude Mythos Preview дошёл до 30% solve rate на human-difficult задачах.
На обычных human-solvable задачах модель чаще работает стабильно: либо знает, как решать, либо нет. А на сложных human-difficult задачах часть побед выглядит хрупкой: иногда Claude находит удачный reasoning path, но не всегда может воспроизвести его в следующих попытках. То есть frontier уже сдвинулся, но надёжность пока не везде на уровне production science.
BioMysteryBench: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench
🔥 100 Claude и AI-репозиториев, которые стоит сохранить. Часть 1/4
1. Claude Code
https://github.com/anthropics/claude-code
Терминальный AI coding agent от Anthropic. Нужен, если хотите работать с кодом через Claude прямо из терминала.
2. Claude Quickstarts
https://github.com/anthropics/claude-quickstarts
Готовые starter apps для быстрого запуска проектов на Claude. Полезно, если не хочется собирать всё с нуля.
3. Anthropic Skills
https://github.com/anthropics/skills
Официальные Skills для Claude. Это способ расширять возможности модели под конкретные задачи и рабочие процессы.
4. Claude Plugins Official
https://github.com/anthropics/claude-plugins-official
Официальный marketplace плагинов для Claude. Подходит для изучения того, как устроены расширения вокруг экосистемы Anthropic.
5. Anthropic Repositories
https://github.com/orgs/anthropics/repositories
Полный список репозиториев Anthropic на GitHub. Хорошая точка входа, если хотите следить за официальными инструментами.
6. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code
Крупная подборка ресурсов, инструментов и практик вокруг Claude Code. Удобно использовать как навигатор по экосистеме.
7. Awesome Claude Plugins
https://github.com/quemsah/awesome-claude-plugins
Подборка 1000+ плагинов для Claude. Полезно, если ищете готовые расширения под конкретные задачи.
8. Antigravity Awesome Skills
https://github.com/sickn33/antigravity-awesome-skills
Большая библиотека Skills для AI-агентов. Можно подсмотреть идеи для автоматизации и кастомных рабочих процессов.
9. Awesome Agent Skills
https://github.com/VoltAgent/awesome-agent-skills
Кураторская подборка навыков для агентных систем. Подходит для тех, кто строит ассистентов с конкретными ролями и задачами.
10. Claude Skills
https://github.com/alirezarezvani/claude-skills
Кроссплатформенные Skills для Claude. Можно использовать как основу для собственных расширений и workflow.
11. LangChain
https://github.com/langchain-ai/langchain
Один из самых известных фреймворков для LLM-приложений. Помогает собирать цепочки, агентов, RAG и интеграции с внешними сервисами.
12. LangGraph
https://github.com/langchain-ai/langgraph
Фреймворк для agent workflows и stateful-графов. Особенно полезен, когда агенту нужны циклы, память, маршрутизация и сложная логика.
13. AutoGen
https://github.com/microsoft/autogen
Фреймворк Microsoft для multi-agent систем. Позволяет строить сценарии, где несколько агентов общаются и решают задачу вместе.
14. CrewAI
https://github.com/crewAIInc/crewAI
Инструмент для team-based agents. Удобен, если нужно раздать агентам роли: исследователь, разработчик, ревьюер, аналитик.
15. MetaGPT
https://github.com/metaGPT/metaGPT
AI dev team в виде агентной системы. Идея в том, чтобы имитировать команду разработки с разными ролями.
16. GPT Engineer
https://github.com/gpt-engineer-org/gpt-engineer
Code agent, который помогает генерировать приложения по описанию. Подходит для быстрых прототипов и экспериментов.
17. Sweep
https://github.com/sweepai/sweep
Инструмент для автоматических PR-фиксов. Может помогать разбирать issues и предлагать изменения в коде.
18. Continue
https://github.com/continue-repl/continue
Open-source AI coding assistant для IDE. Хорошая альтернатива закрытым ассистентам для разработки.
19. Bloop
https://github.com/BloopAI/bloop
AI-инструмент для поиска по коду. Нужен, когда кодовая база большая и обычный поиск уже не помогает.
20. Agent Protocol
https://github.com/agentprotocol/agentprotocol
Попытка стандартизировать взаимодействие с AI-агентами. Полезно для понимания, как могут выглядеть общие интерфейсы для агентов.
21. Knowledge Work Plugins
https://github.com/anthropics/knowledge-work-plugins
Плагины для задач knowledge work. Это про работу с документами, информацией, анализом и внутренними процессами.
22. Vercel AI SDK
https://github.com/vercel/ai
SDK для создания AI-интерфейсов и приложений. Особенно полезен для разработчиков на Next.js и TypeScript.
«Я чертовски НЕНАВИЖУ AI»
Жёсткая реальность от разработчика с 20-летним опытом: экзистенциальная тревога от того, как десятилетиями накопленные навыки постепенно теряют ценность на фоне Claude Code и Codex.
32 тысячи звёзд на GitHub всего за 10 часов!
Терминал Warp открыли в open-source.
Это одна из самых заметных agentic development environment: терминалом уже пользуются больше 1 млн разработчиков по всему миру. Теперь проект хотят развивать быстрее за счёт комьюнити, внешних контрибьюторов и прозрачной разработки.
open-source-релиз стал возможен при поддержке OpenAI, которые выступили главным спонсором проекта.
Реакция комьюнити мощная: репозиторий за несколько часов собрал уже 30+ тысяч звёзд на GitHub.
И, конечно же, он написан на Rust.
https://github.com/warpdotdev/warp
Налог на неанглийский язык: почему хинди и арабский в Claude обходятся дороже всего
Исследователь Аран Комацузаки прогнал «Bitter Lesson» Саттона через токенизаторы OpenAI и Anthropic и нормализовал результат к английскому. Картинка получилась неприятная для всех, кто пишет не на английском.
Один и тот же текст на хинди у OpenAI занимает в 1,37 раза больше токенов, чем по-английски. У Anthropic - в 3,24 раза. Арабский: 1,31 против 2,86. Китайский: 1,15 против 1,71. То есть пользователь, который пишет Claude на хинди, фактически платит втрое больше за то же самое сообщение и быстрее упирается в контекстное окно.
Это и есть «лингвистический налог»: токенизатор обучен преимущественно на английских данных, и все остальные языки он режет на куски мельче, чем нужно. У Anthropic эта диспропорция выражена заметно сильнее, чем у OpenAI, и для языков с неевропейской письменностью разрыв превращается в реальные деньги и потерянный контекст.
https://x.com/arankomatsuzaki/status/2049125048792006965
Microsoft представила TRELLIS.2 - open-source Image-to-3D модель на 4B параметров, которая превращает изображения в 3D-ассеты с PBR-текстурами разрешением до 1536³.
Модель построена на нативных 3D VAE с 16-кратным пространственным сжатием, что даёт более эффективную, масштабируемую и детализированную генерацию 3D-объектов.
Демки выглядят очень круто.
https://github.com/microsoft/TRELLIS.2
🧩 Новый язык программирования для AI-систем
Weft - это язык программирования, написанный на Rust, который упрощает создание AI-приложений, позволяя связывать LLM, людей и API без лишнего "проводки". Он предлагает визуальное представление программ и строгую типизацию, что делает разработку более интуитивной и безопасной.
🚀Основные моменты:
- Первоклассные взаимодействия с людьми через простые узлы.
- Возможность сворачивать группы узлов для упрощения структуры.
- Полная типизация, предотвращающая ошибки на этапе компиляции.
- Устойчивое выполнение программ, сохраняющих состояние после сбоев.
- Встроенные узлы для работы с различными сервисами и API.
📌 GitHub: https://github.com/WeaveMindAI/weft
#rust
Claude Opus 4.7 поймали на 712 отмазках за месяц
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.
Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.
Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
MIT создал ИИ, который может управлять движениями вашего тела.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет
Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.
Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.
Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.
Что бесит людей сильнее всего:
• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.
Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.
Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».
Это вопрос доверия.
Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.
Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.
Как у вас с лимитами ?
Z.ai показала, где на самом деле ломаются LLM в продакшене
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
⚡️ Как одна команда сожгла $6000 на Claude за ночь
Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.
Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.
К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.
Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.
Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.
✔️ Карпати: вместо `.sh` скриптов теперь будут `.md` скиллы
На Sequoia Ascent 2026 Андрей Карпати поднял интересную мысль.
LLM важны не только потому, что помогают быстрее писать код, тексты и документацию. Главное в другом: они открывают классы задач, которые раньше либо требовали сложного классического софта, либо вообще плохо решались программированием.
Первый пример - его приложение menugen.
Там почти нет привычной логики приложения. Модель получает картинку меню и возвращает новую картинку. Раньше для такого пришлось бы собирать пайплайн из OCR, парсинга, базы данных, правил и рендеринга. Теперь значительная часть этой работы уезжает внутрь LLM.
Второй пример интереснее: Карпати предлагает смотреть на .md файлы как на замену bash-скриптам.
Вместо хрупкого .sh, который ломается на другой системе, можно написать обычную инструкцию на английском: что установить, какие шаги пройти, что проверить. Дальше агент сам адаптирует процесс под конкретную машину, чинит ошибки по ходу и доводит задачу до конца.
По сути, естественный язык начинает работать как новый shell script.
Третий важный слой - базы знаний на LLM. Раньше вычисления по неструктурированным данным из разных источников были болью Software 1.0. Сейчас это становится нормальным рабочим сценарием: модель читает, связывает, извлекает смысл и действует поверх хаоса.
Отдельно Карпати говорит про jaggedness - неровность способностей моделей.
Одна и та же LLM может уверенно рефакторить огромную кодовую базу и одновременно проваливаться в простом бытовом совете. Это не магия и не случайность. Модели сильнее там, где домен хорошо проверяется, где много данных и где лабораториям экономически выгодно улучшать качество.
Если задача внутри этого распределения, агент едет по рельсам.
Если снаружи - идёт через джунгли с мачете.
Финальная мысль - agent-native экономика.
Продукты будущего нужно проектировать так, чтобы они были удобны не только людям, но и агентам: с понятными сенсорами, действиями, логами, интерфейсами и машинно-читаемым контекстом.
Отсюда появляется новая дисциплина - agentic engineering. Это умение проектировать системы, в которых агенты могут читать, планировать, действовать, проверять себя и чинить ошибки.
Год назад Карпати популяризировал vibe coding и поднял нижнюю планку входа в разработку.
Agentic engineering поднимает верхнюю планку.
Иронично, что сам Карпати признаётся: он никогда ещё не чувствовал себя настолько отстающим программистом.
Это говорит человек, который писал GPT с нуля.
https://x.com/karpathy/status/2049903821095354523
Anthropic: оценка с $61,5 млрд до $900 млрд - 15x примерно за 12 месяцев. Прочитайте это еще раз.
Год назад Anthropic оценивали в $61,5 млрд. Теперь инвесторы готовы вложить в компанию $50 млрд свежего капитала при оценке, приближающейся к $900 млрд. Это почти 15-кратный скачок за один год, fueled ростом выручки с примерно $1 млрд до run rate в $40 млрд.
Если это случится, Anthropic увеличит свою оценку в 50 раз с начала 2024 года, что делает этот кейс, возможно, самым быстрым созданием стоимости в истории tech-индустрии.
Mistral выкатила Medium 3.5 и тихо заняла нишу, на которую почти никто больше не претендует
Французская Mistral выпустила Medium 3.5, и самое интересное в этом релизе даже не сами бенчмарки, а то, с кем компания себя сравнивает. На графиках рядом стоят Kimi, Qwen, GLM и Claude Sonnet. GPT и Gemini там нет. И это выглядит не случайностью, а вполне понятной стратегией.
После того как Aleph Alpha ушла под Cohere, Mistral фактически осталась единственной AI-лабораторией фронтирного уровня, которая не находится ни в США, ни в Китае. Европа в большой гонке моделей теперь держится почти на одной компании, и эта компания французская.
Medium 3.5 тоже сделана не как попытка любой ценой выиграть гонку масштаба. Это dense-модель на 128 миллиардов параметров с открытыми весами, контекстом 256k и настраиваемым уровнем усилия при рассуждении.
Китайские конкуренты идут другим путём: строят огромные MoE-модели на сотни миллиардов и даже триллион параметров, но активируют только небольшую часть на каждый запрос. Это выгодно для инференса. Mistral выбирает более дорогой, но понятный путь: плотная модель, больше вычислений, зато выше предсказуемость поведения.
И тут интересен бенчмарк Collie, где Medium 3.5 набирает 95.8 и заметно обходит конкурентов. Collie проверяет не то, насколько модель красиво рассуждает, а насколько точно она следует инструкциям. Для Mistral это ключевой сигнал.
Они явно не пытаются продать Medium 3.5 как самую умную модель в мире. Их ставка другая: сделать модель, которую можно спокойно встраивать в рабочие процессы, продукты и энтерпрайз-системы без ощущения, что она каждый день ведёт себя по-новому.
Бизнесу часто не нужен гений. Ему нужен исполнитель, который стабильно понимает задачу, держит контекст и не ломает инструкции.
Именно туда Mistral и целится. Не в хайп вокруг “самой сильной модели”, а в европейскую нишу надёжного production-AI с открытыми весами. И после последних перестановок на рынке конкурентов с такой же географией и амбициями у неё почти не осталось.
Blog: https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
Hf: https://huggingface.co/collections/mistralai/mistral-medium-35
Guide: https://unsloth.ai/docs/models/mistral-3.5
GGUFs: https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF
📌TIME назвал 10 самых влиятельных компаний 2026 года в сфере ИИ
Издание опубликовало расширенную версию рейтинга TIME100 Most Influential Companies - впервые выбрав их по отраслевому принципу.
🟡ByteDance
Владелец TikTok стал одним из ведущих ИИ-разработчиков Китая: его ассистент Doubao набрал более 155 млн еженедельных пользователей. В 2026 году компания, оценённая примерно в $550 млрд, потратит $14 млрд на чипы Nvidia (при условии одобрения экспорта со стороны США).
🟡Amazon
Корпорация запустила Project Rainier - один из крупнейших вычислительных ИИ-кластеров в мире, работающий примерно на 500 тыс. собственных чипов Trainium2 и обслуживающий модели Anthropic.
🟡Zhipu
Китайская компания первой среди местных LLM-разработчиков вышла на биржу в Гонконге и в феврале представила модель GLM-5 на 744 млрд параметров. По данным самой компании, её моделями пользуются более 4 млн корпоративных клиентов и разработчиков, а годовая выручка достигла около $107 млн.
🟡OpenAI
Число еженедельных пользователей ChatGPT превысило 900 млн, ежемесячная выручка — $2 млрд. Параллельно OpenAI заключила контракт с Пентагоном и столкнулась с исками, в которых ChatGPT, по утверждению истцов, мог сыграть крайне деструктивную роль по отношению к людям.
🟡Alphabet
Под руководством Сундара Пичаи Google вернулся в число лидеров ИИ: модели Gemini поднялись в верхушку рейтингов возможностей, а годовая выручка Alphabet впервые превысила $400 млрд. ИИ-функции компании встроены в Gmail, Maps, YouTube и сервис беспилотных такси Waymo.
🟡Meta*
В 2025 году Meta показала рекордную рекламную выручку, частично за счёт ИИ-обработки данных собственных соцсетей, и продолжает вкладываться в исследователей и дата-центры. В марте этого года суд признал Meta ответственной за вред психике несовершеннолетнего пользователя и присудили истцу $6 млн; компания заявила, что обжалует решение.
🟡Anthropic
Claude стал первой ИИ-системой, допущенной в засекреченные сети США, и, по сообщениям СМИ, использовался при планировании военных операций. После отказа Anthropic снять ограничения на массовую слежку и автономное оружие Белый дом объявил компанию риском цепочки поставок.
🟡Alibaba
Семейство открытых моделей Qwen превысило миллиард скачиваний и породило более 200 тыс. производных моделей. Гендиректор Эдди У заявил, что за пять лет компания рассчитывает превысить $100 млрд внешней выручки от облака и ИИ.
🟡Mistral
Французский стартап, оценённый примерно в $14 млрд, делает ставку на открытые модели и развёртывание на инфраструктуре заказчика; среди её клиентов - ASML, TotalEnergies, HSBC и министерство вооружённых сил Франции. В начале 2026 года её годовая выручка достигла $400 млн (примерно в 20 раз больше, чем годом ранее).
🟡Hugging Face
Платформа стала своего рода «GitHub для ИИ»: на ней размещено свыше 2 млн моделей и 500 тыс. датасетов, аккаунты есть более чем у 30% компаний из списка Fortune 500. Компания развивает инструменты для ИИ-агентов и в 2025 году представила открытого робота Reachy Mini.
* Компания Meta признана в России экстремистской организацией и запрещена
@ai_machinelearning_big_data
#news #ai #ml
Готовые LLM в облаке по выгодным ценам
MWS GPT Model Hub — облачный сервис MWS Cloud для работы с современными LLM от разных провайдеров без развёртывания собственной ML-инфраструктуры. Есть модели от DeepSeek, Google, Alibaba, Zhipu AI, BAAI, Moonshot AI.
До 15 июля снижаем цены: соотношение стоимости входящих к исходящим токенам — примерно 1:4:
• входящие токены — дешевле до 95%;
• исходящие токены — дешевле до 80%.
Это делает сценарии с большим объёмом контекста значительно выгоднее.
Новые цены применяются автоматически. Если ещё не пробовали MWS GPT Model Hub — хороший момент попробовать.
Попробовать
✔️ Ant выкатили Ling-2.6-flash в опенсорс, и это реально интересный кейс
На бумаге это монстр на 104 миллиарда параметров, но в работе одновременно крутится только 7,4 миллиарда. Классическая MoE архитектура, где сеть сама решает, каких экспертов подключать под конкретную задачу. Поэтому и скорость такая, какой обычно от больших моделей не ждёшь.
215 токенов в секунду на бенчмарке Artificial Analysis. Для сравнения, многие топовые модели крутятся в районе 50–80 токенов в секунду, так что разрыв ощутимый. Но интереснее другая цифра. На полном прогоне AA Intelligence Index модель потратила всего 15 миллионов токенов. В реальной эксплуатации такая экономия превращается в прямые деньги, потому что меньше токенов это меньше счёт за инференс.
Для деплоя есть три варианта весов: BF16 для тех, у кого железа в избытке, FP8 как разумный компромисс и INT4 для совсем зажатых по памяти сетапов.
То есть запустить можно хоть на жирном кластере, хоть на одной видяхе с квантизацией.
Hugging Face: https://huggingface.co/inclusionAI/Ling-2.6-flash
ModelScope: https://modelscope.cn/models/inclusionAI/Ling-2.6-flash
🚀 Яндекс отчитался за первый квартал 2026: выручка Yandex B2B Tech взлетела на 36%
Корпоративные сервисы Яндекса заработали уже 13,6 млрд рублей. Бизнес-клиенты не просто подключаются, а реально наращивают потребление – особенно в сегменте ИИ и безопасности.
Что там с деньгами:
• Выручка – 13,6 млрд рублей (+36% г/г). Растет и количество клиентов, и средний чек;
• Скорректированный показатель EBITDA – 2,6 млрд рублей (+49% г/г). Маржинальность тянет вверх доля PaaS и SaaS.
Ключевой драйвер — Yandex AI Studio:
• Ежемесячное потребление токенов через API выросло до 109 млрд в марте. Это рост в 30 раз всего за год;
• На платформе уже создали более 16 тысяч ИИ-агентов;
• Бизнес переходит от точечных экспериментов к полноценной автоматизации процессов.
Что еще важно:
• Общее число клиентов Yandex Cloud достигло 60 тысяч. Больше половины выручки дают крупные компании.
• ИИ и кибербезопасность растут вдвое быстрее год к году. Причём больше половины крупных и средних клиентов Cloud уже используют платформу для информационной безопасности.
Ссылка: https://rb.ru/news/yandeks-opublikoval-finansovye-itogi-za-i-kvartal-2026-goda-vyruchka-vyrosla-na-22-do-3727-mlrd/
CLAUDE OPUS 4.7 использует 500K токенов, чтобы переименовать одну переменную.
Читать полностью…