nobilix | Unsorted

Telegram-канал nobilix - Refat Talks: Tech & AI

5413

Заметки про технологии, GenAI и глобал стартапы, прагматично и без лишнего хайпа. Эксперт по разработке и внедрению enterprise-grade AI автоматизаций, строю AI-first компании. Co-founder devstark.com и spreadsimple.com лс @refatametov

Subscribe to a channel

Refat Talks: Tech & AI

Цифровая археология: рентген и анализ всего кода локально + промпт чтобы повторить

Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.

Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.

Скормил Claude Code, получил дашборд за 15 минут.

415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)

Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.

Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4

Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo

Если запустите у себя - делитесь в комментах скринами/ссылками)

--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".

- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.

- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.

- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.

- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.

- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.

- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.

- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).

- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.

- Meta купила Moltbook, соцсеть для AI-агентов.

- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.

- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.

- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).

- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).

- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.

- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.

- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.

- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.

- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.

- a16z опубликовала шестой рейтинг Top 100 AI-приложений.

- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.

- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.

🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟

Читать полностью…

Refat Talks: Tech & AI

Ваш кодинг-агент уже выбрал ваш стек. Вы просто еще не заметили.

Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.

Что нашли

- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.

А что изменилось-то

Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.

И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.

И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.

Что с этим делать

- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.

- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.

- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.

- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.

- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.

Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).

🔥 ➕ 🔁 @nobilix

Читать полностью…

Refat Talks: Tech & AI

Про PDF OCR и Bounding Boxes: рентген для ваших документов - где это применяется и на что обращать внимание при выборе парсеров документов.

Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.

Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно [x1, y1, x2, y2].

Где это применяется

Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.

Уровни гранулярности

Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко

Два подхода к grounding

1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.

На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.

Мой опыт: Marker -> MinerU

До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.

Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый ListItem как отдельный элемент с собственным bbox. Именно то, что нужно для точного grounding, еще и поддерживается правильная иерархия. У MinerU есть облако с какими-то супер-щедрыми лимитами типа 10K файлов в день. И локально запускается, но учитывайте что это 3-10 секунд на страницу при больших объемах - медленно. И, кстати, они используют в том числе SOTA модель PaddleOCR, которую не зря нахваливал Глеб.

Альтернативы

Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.

Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.

Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.

Фронтенд: подсветка в PDF

Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).

Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.

🔥➕🔁 @nobilix

Читать полностью…

Refat Talks: Tech & AI

Файл, который вы первым делом создаете для кодинг-агента, скорее всего делает его работу хуже. Разбираем исследование о том, помогают ли AGENTS.md и CLAUDE.md файлы кодинг-агентам решать задачи.

Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой CLAUDE.md AGENTS.md`" (обобщим как context files). Кто-то использует шаблоны из Github и постов, а кто-то запускает `/init`. Звучит как must-have. Но исследователи из ETH Zurich решили проверить, работает ли это на самом деле.

Что проверяли и к чему пришли

Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый /init). Задачи - реальные GitHub issues из SWE-bench. Получили:

- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files

Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.

Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через rg и чтение package.json. По сути это дублирование. Только теперь это дублирование сидит в контексте каждого запроса, занимает токены и создает bias.

Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.

Мой подход

Я практически не использую /init. Вместо этого начинаю с ручного минималистичного CLAUDE.md. Там чаще бизнес-контекст (про что проект, текущее состояние, что важно учитывать на этой стадии), а не описание файловой структуры. Придерживаюсь реактивного подхода: если агент раз за разом делает одну и ту же ошибку - добавляю правило. Не делает - не добавляю. Периодически делаю ревизию.

Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.

В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.

Еще из наблюдений

- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
- AGENTS.mdCONTRIBUTING.md - если у вас уже есть CONTRIBUTING.md для людей, не дублируйте. Просто сошлитесь на него. То же касается README.md
- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.

Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.

А какой у вас опыт?

Читать полностью…

Refat Talks: Tech & AI

Cloudflare запустили Markdown for Agents - и тут есть что обсудить.

Помните мой разбор LLMs.txt? Тогда я сделал рисерч и пришел к выводу, что идея скорее мертворожденная: 0.3% адаптация среди топ-100к сайтов, ни один крупный провайдер официально не поддерживает. Собственно, так и вышло: cейчас почти никто не делает LLMs.txt.

А вот тут совсем недавно Cloudflare зашли с другой стороны: релизнув Markdown for agents - когда AI-агент отправляет запрос с заголовком Accept: text/markdown, Cloudflare на лету конвертирует HTML в чистый MD. Плюс в ответе будет приходить заголовок x-markdown-tokens с оценкой токенов. Агент может заранее понять, влезет ли страница в контекстное окно, до того как ее обработает. По сути это context window management на уровне HTTP.

Кстати, Claude Code и OpenCode уже отправляют Accept: text/markdown - они буквально просили об этом, просто никто не слушал.

Контекст шире, чем кажется. Cloudflare за полтора года развернулись на 180 градусов. Июль 2024 - дали кнопку "блокировать AI-краулеров одним кликом". Июль 2025 - все новые домены блокируют AI по умолчанию, 416 миллиардов заблокированных запросов. И вот февраль 2026 - запускают Markdown for Agents и приглашают тех же агентов обратно.

Девелоперское комьюнити принимает с энтузиазмом, предложили воркэраунд для бесплатных планов, появились Spatie-пакет для Laravel, плагин для Caddy, WordPress-плагин от создателя Yoast.

SEO-шникам же идея не очень зашла. Джон Мюллер из Google прямо назвал идею "stupid". Некоторые предупреждают о "shadow web" - сайты могут вставлять скрытые инструкции в markdown-версию.

Меня лично бесит, когда Claude Code не может получить ответ с какого-то сайта, потому что тот решил блокировать AI-агентов. Особенно этим грешит OpenAI. Я понимаю владельцев сайтов - никому не хочется оплачивать трафик ботов, которые выкачивают контент. Но универсального решения пока нет, и от этого страдают все.

Идея Cloudflare мне нравится больше, чем LLMs.txt да и Cloudflare настолько большой провайдер (~20% веба), что может задать тренд, если эксперимент получится удачным. Если Vercel и Fastly, Netlify и др. подхватят - получим де-факто стандарт. Но проблема, что этот же заголовок становится маркером "я AI-агент", что упрощает и блокировку.

А вы как думаете - это шаг в правильном направлении или наоборот нужно оставить веб таким, каким его видят люди и не пытаться его подогнать под требования агентов?

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Bytedance хайпят с Seedance 2.0 - новой SOTA видео-моделью с мощно подросшим качеством генерации и нативным аудио.

- OpenAI представила GPT-5.3-Codex-Spark - компактную модель для кодинга в реальном времени, работающую на чипах Cerebras (>1000 t/s)

- Google выпустили Gemini 3 Deep Think - обновленный ризонинг мод, который выбил SOTA на нескольких бенчмарках, включая ARC-AGI-2 (84.6%). Доступна в Ultra плане.

- Zhipu AI выпустила GLM-5 - открытую модель под лицензией MIT - где-то между лучшими открытыми моделями и закрытыми фронтирными. Вместе с моделью представили свою агентный UI Z-code.

- Google DeepMind представили Aletheia - ИИ-агента для математических доказательств, который набрал 91.9% на IMO-ProofBench Advanced (новый рекорд).

- MiniMax выпустили M2.5 - модель чуть слабее GLM-5, но заметно дешевле: $0.3/$1.2 за миллион токенов против $1/$3.2 у GLM-5.

- Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast - версия в 2.5 раза быстрее обычной, но обойдется в 6 раз дороже обычной модели.

- OpenAI Responses API получили большой апдейт: server-side compaction, контейнеры с интернетом + Skills. Плюс выкатили статью с 10 советами по запуску многочасовых агентных воркфлоу.

- Anthropic привлекли $30 млрд на оценке $380 млрд - крупнейший раунд среди AI-стартапов.

- Cursor выпустили новую модель Composer 1.5. Модель с ризонингом, обучена само-суммаризации для работы с длинными диалогами.

- Claude Cowork теперь на Windows.

- Nebius (от бывших фаундеров Яндекса) покупают Tavily - популярный поиск для AI-агентов.

- Бывший CEO GitHub Томас Домке запустил Entire - "Github для ИИ-агентов". Платформа автоматически сохраняет весь контекст генерации и передает ИИ для дальнейшей работы.

- Stripe используют minions - агентов, которые могут one-shot делать фичи end-to-end.

- Warp запустили Oz - платформу для оркестрации агентов в облаке. Запускай сотни агентов из терминала, браузера, API или телефона.

- Google реализовали архитектуру Recursive Language Models (RLM) от MIT на своем Agent Development Kit.

- Alibaba выпустили Qwen-Image-2.0 - новый ИИ-фотошоп. Поддерживает качество до 2К, создает фотореалистичные картинки, слайды презентаций, людей и природу с высокой детализацией.

- Claude in PowerPoint - ассистент теперь работает внутри презентаций, редактируя слайды в реальном времени и сохраняя корпоративный стиль.

- Chrome 146 включает ранний превью WebMCP, доступный через флаг - позволяет AI-агентам делать запросы к сервисам без браузинга.

- Сэм Альтман сообщил сотрудникам, что ChatGPT вернулся к росту более 10% в месяц, а Codex вырос на 50% за неделю.

- Вокруг OpenClaw много шума, поэтому кратко любопытное: webclaw.dev - веб клиент, aight.cool - iOS app, драма с агентным PR в гитхабе, интервью фаундера с Lex Fridman, разбор с нуля на питоне.

Читать полностью…

Refat Talks: Tech & AI

Поляков считает, что он победил управляющую компанию

Разогнался с навыками для OpenClaw и заметил неэффективность: чтобы курьер Вкусвилл попал к нам домой, надо зайти в приложение УК и заказать пропуск. Иначе — пропущеные звонки, недоставленные заказы и нервы.

Наш Домпульт ужасен: 5 экранов ради одного пропуска. А гостевой паркинг — вообще боль: слоты по 30 минут, максимум 3 за раз, по мере освобождения можно ещё 3. Без пропуска — предупреждение, потом бан.

🔍 Charles Proxy: приложение для отладки трафика

Проблема: у приложения УК нет публичного API. Но любое приложение общается с сервером по HTTP. Я посмотрел сетевой трафик своего аккаунта на своём устройстве, чтобы понять, что делает приложение.

Charles Proxy — прокси для мониторинга сетевых запросов. Настроил отладочный прокси — и стало видно, какие запросы и параметры уходят при обычных действиях.

💡 Делаешь действие в приложении — и становится понятно, какие сетевые вызовы за ним стоят.


Нюанс: не уверен, что утилита работает с Андроид.

⚙️ Что автоматизировал

🔸 Парсинг новостей УК: закрытие проездов, ремонт, отключения
🔸 Заказ пропусков для курьеров и гостей
🔸 Бронирование парковочных мест
🔸 Связка: заказ во ВкусВилл → пропуск для курьера

Всё это доступно мне в приложении — бот просто повторяет те же действия, но без лишних экранов.

Последний пункт — главный. Бот собирает корзину, проверяет наличие и сам заказывает пропуск на время доставки.

🤦 Про вчерашний Puppeteer

Вчера городил безголовый Chrome с авторизацией для проверки наличия товаров ВкусВилл. Но можно было бы и по другому. Хотя и сложнее в разы.

📌 Итого

Бот теперь умеет: искать продукты → проверять наличие → собирать корзину → заказывать пропуск курьеру. Полный цикл от «хочу форель» до «курьер у двери».

Расскажите, уже пробовали бытовую автоматизацию через ИИ?

----

Поляков считает — AI, код и кейсы

Читать полностью…

Refat Talks: Tech & AI

Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex

Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex - оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели - и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит - Opus, но судите сами.

Коротко что в каждом релизе.

Claude Opus 4.6
- 1M токенов контекста (было 200k) - первый Opus с таким окном
- Agent Teams - несколько агентов параллельно на одной задаче
- Adaptive Thinking - сама решает когда думать глубже
- Claude в PowerPoint (превью)
- SOTA на агентном кодинге, бьет GPT-5.2 на 144 Elo
- Нашел 500 zero-day уязвимостей в open-source
- $5/$25 за 1M токенов
- блог-пост

GPT-5.3-Codex
- Первая модель, которая участвовала в собственном создании
- На 25% быстрее при меньшем расходе токенов
- Terminal-Bench: 77% (было 64%), OSWorld: 65% (было 38%, человек ~72%)
- Первая "High capability" для кибербезопасности + $10M на гранты
- Вышла за пределы кода: PRDs, презентации, аналитика
- Codex app для macOS - 500k загрузок за 3 дня
блог-пост

Любопытно: ни один бенчмарк в анонсах напрямую не пересекается. Обе компании выбрали разные тесты, так что сравнить лоб в лоб по цифрам - нельзя.


По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал - перепроверяет по несколько раз из-за этого сам процесс дольше.

Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам - расскажите ваши впечатления - что удалось потестить и какие впечатления?

Читать полностью…

Refat Talks: Tech & AI

Vibecoding ≠ AI-assisted engineering

Год назад Андрей Карпатый ввел термин "vibe coding" и то что задумывалось как мем "просто промпти и не думай" часто стало ассоциироваться со всей AI разработкой. Поэтому, те кто меня знает, знают что я этот термин не очень люблю) Между тем серьезные компании тихо выстраивали совсем другой подход: системный, с ревью, метриками и инфрой. Не vibe coding, а AI-assisted development.

Тема необъятная и много кто (и я в том числе, иногда) о ней пишет. В этом посте я просто собрал несколько годных статей, где компании уровня Uber и Spotify детально описывают свои workflows, архитектуры, фреймворки, грабли, цифры.

Block — AI-Assisted Development at Block как перевести 12 тыс. инженеров на AI-assisted разработку и не утонуть. Block запустил программу AI Champions (50 инженеров, 30% времени на enablement), геймифицировал подготовку репозиториев через "Repo Quest" с уровнями, и внедрил подход Research → Plan → Implement с чистым контекстом на каждой фазе. Результат за 3 месяца: AI-authored code +69%, automated PRs выросли в 21 раз. Внутри - детальная диаграмма AI-ready монорепо на 40K+ файлов.

OpenAI — Building an AI-Native Engineering Team - cамый полный SDLC-гайд из всей подборки. Для каждой фазы (Plan, Design, Build, Test, Review, Deploy) — четкая таблица: что делегировать агенту, что ревьювить, что остается за человеком. Фреймворк Delegate → Review → Own.

• Anthropiс - Исследование "How AI Is Transforming Work" про "парадокс контроля", стратегии делегирования. Свежий 2026 Agentic Coding Trends Report, и Борис (создатель СС) много пишет в twitter про свои workflow.

Spotify — Background Coding Agent - Spotify не дал каждому инженеру Cursor, они надстроили AI поверх существующей системы массовых миграций по тысячам репозиториев. Мульти-агентный pipeline: planning agent → coding agent → pull requests.

Uber — uReview: AI-Powered Code Review - Uber покрывает AI-ревью 90%+ из ~65,000 еженедельных дифов по шести монорепозиториям. Детальнейший публичный разбор AI code review в production: от pipeline архитектуры до выбора моделей.

Addy Osmani — My LLM Coding Workflow Going into 2026 - личный workflow ведущего инженера Google Chrome. Spec before code, ultra-granular version control (коммиты как save points), AI-on-AI review. Главный тезис: "AI amplifies your expertise" - без фундамента AI просто усиливает хаос.

Короче, как я считаю, "AI пишет код" - это некий спектр, а не одна точка. Vibe coding - это в определенных (редких) условиях приемлемый способ делать софт. AI-assisted engineering - совсем другой способ делать софт. Проблема не в том, что один хуже другого, а в том, что их склеили в одно слово.

Читать полностью…

Refat Talks: Tech & AI

Просто короткая подборка того, что я нашел полезного за последнее время (на разные темы):

- Skillsmp и skills.sh - агрегаторы Agent Skills. Качаешь zip, или запускаешь npx skills add - и агент сам понимает, когда применить.

- Markdown.fast - open-source фреймворк для публикации: маркдаун → терминал → сайт, доступный сразу и браузерам, и LLM, и AI-агентам. Удобно, если ведешь блог или доку и хочешь деплоить из терминала без возни с CMS.

- Pencil.dev - Figma, но для IDE. Рисуешь сам или просишь AI - код генерится сразу (HTML, CSS, React). Файлы дизайна (.pen) лежат в git, версионируются вместе с кодом. Импорт из Figma, параллельные агенты, бесплатный (платишь только за свой AI-провайдер).

Все это я нашел в канале Игоря Tips AI. Он стабильно вытаскивает полезные штуки, классный канал, на который я давно подписан.

Оффтоп: В моем канале нет платной рекламы. А еще в телеграме нет органики, поэтому авторы растут через взаимные рекомендации, это дружеская рекомендация подписаться на классный канал)

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Вышел Cursor 2.4. Появились Subagents + добавили генерацию изображений и Cursor Blame для Enterprise (показывает, какой код написал AI, а какой человек).

- Anthropic опубликовала новую "конституцию" Claude на 23 000 слов (Конституция США - 7 500) под лицензией CC0. Можно свободно использовать для своих моделей. OpenAI выпустила свою под той же лицензией.

- OpenAI запускает определение возраста в ChatGPT. Cначала автоматически включаются ограничения, а если ошибочно - можно отключить через KYC.

- z.ai выпустили Flash-версию опенсорсной модели GLM-4.7, заточенную на локальный кодинг и агентов.

- Прошел форурм в Давосе - в плане AI Главная тема форума в этом году - доказательство ROI от AI.

- Sansec использовал Claude для аудита пакетов на Packagist (PHP) и нашел 353 zero-day уязвимости.

- Mercor представили APEX-Agents - новый бенчмарк для AI-агентов на долгосрочных задачах в Google Workspace. Результаты: Gemini 3 Flash - 24%, GPT-5.2 - 23%, Claude Opus 4.5 - 18.4%.

- TII (Abu Dhabi) выпустили Falcon-H1R 7B - гибрид Transformer + Mamba2 с контекстом 256K. Обгоняет модели до 7x крупнее: 88.1% на AIME-24, скорость до 1500 токенов/сек. Open source.

- GitHub выпустил Copilot SDK для встраивания агентных возможностей в любые приложения.

- Alibaba опубликовала Qwen 3 TTS - модели синтеза голоса на 0.6B и 1.7B параметров. Тренировали на 5 млн часов аудио на 10 языках (включая русский). Есть клонирование голосов, поддержка vLLM и mlx audio.

- xAI опенсорснули код рекомендательной системы X (Twitter). Маск пообещал обновлять репозиторий раз в месяц.

- Apple разрабатывает AI-пин размером с AirTag с двумя камерами. Возможный запуск в 2027.

- Gemini в Chrome получает систему навыков ("Skills"), двигаясь к полноценному AI-агенту в браузере.

- Manus добавили паблишинг навайбкоденных приложений в App Store и Play Market прямо из чата.

- Google расширяет персонализацию в AI-поиске: теперь AI использует Gmail и Photos для результатов.

- CNN сообщает о растущем тренде отказа от AI. Люди возвращаются к рукоделию, бумажным книгам и аналоговым хобби как противовес генеративному AI.

- Claude in Excel теперь доступен на Pro-планах (довольно мощная штука, эксель-гуру хвалят). А создатель Claude Code Борис Черный дал интервью в YT про Claude Cowork и Claude Code.

Читать полностью…

Refat Talks: Tech & AI

Завтра стрим про агенты в облаке и на своем железе. Приходите кому интересно (бесплатно).

Делаем расширенную версию докладов с ИИтоги 2025 - мы с Валерой (канал Neural Kovalskii), по 40 минут на каждого вместо 20, плюс Q&A.

Если строите AI агентов или планируете - будет полезно разобраться:

Облако (моя часть):
- Почему "просто поменять модель" уже не работает, про агентный API - и какая ситуация с вендор-локом
- Build vs Buy: на чем экономить время, а что строить самим
- Подробнее про кейсы file-first агентов и в этот раз будет время рассказать технические детали

Локально (Валера):
- Какие open-source модели реально тянут десятки тулов без галлюцинаций
- Как запустить агентов на своем железе, если есть требования к безопасности
- MCP в Enterprise: что работает, где грабли

21 января, 19:00 GMT+3. Бесплатно.

📅 Календарь - прямая ссылка на стрим появится там в день эфира

Читать полностью…

Refat Talks: Tech & AI

Онтология - старая концепция переживающая ренессанс в эпоху AI

Это то, что разительно уменьшает галлюцинации и за чем стоит успех Google в AI гонке. А еще сложно представить mission-critical систему (напр. медицинскую) без онтологий.

Если вы работаете с LLM, боретесь с галлюцинациями, или думаете о том, как структурировать знания в вашей системе - пост будет вам полезен.

Хотя понятие древнее (восходит к Аристотелю), в контексте computer science онтология - это формальная спецификация концептуализации. Если проще, то это явное определение:
- Какие типы сущностей (entities) существуют в вашем домене
- Какие отношения (relationships) между ними возможны
- Какие правила и ограничения (constraints) должны соблюдаться

Почему онтологии важны для AI?
1. Ограничивают типы сущностей и отношений, которые LLM может извлекать
2. Совместимая структура для извлечения знаний (помним про стандарты, да?)
3. Детерминированный логический вывод (reasoning) по правилам (готовый, развитый аппарат для этого)
4. Борьба с обобщениями, потому что контекст без онтологии ломается (происходит т.н. meaning collapse)

Важные понятия, которые нужно знать
- Триплет - единица знания (Subject, Predicate, Object)
- Класс - тип сущности, например Person, Product
- Свойство/отношение - связь между классами
- Экземпляр (instance) - конкретный объект класса, например компания Google
- Правило (Rule) - логические ограничения
- Вывод (Reasoning) - автоматическая дедукция новых фактов из существующих

Важные стандарты: RDF (триплеты), OWL (хранение и reasoning), SPARQL (язык запросов).

Система знаний (а это чаще всего то, что мы тут делаем с вами в мире AI разработки) сильно выигрывает от внедрения онтологий, и правильная работа с ними - похожа на постройку здания, где фундаментом выступают доменные (отраслевые) онтологии. Примеры готовых доменных онтологий: SNOMED CT (медицина), FHIR (healthcare interoperability), FIBO (финансы), LKIF (legal), Schema.org (веб и не только). Над фундаментом строятся этажи из кастомных онтологий и знаний. Стройка эта не простая, но она дает качественно другой результат и инвестиция в онтологии - это стратегический asset, который растет в ценности.

Чаще всего AI-разработчики слышат про онтологии только в связи с графовыми БД (Neo4j) и GraphRAG. Но тема куда шире и фундаментальнее - это про то, как вы определяете структуру знаний в вашей системе, независимо от того, где и как вы их храните.

Сложно запихнуть в тг пост такую большую тему, но надеюсь хотя бы пробудил интерес и дал направления. Изначально я планировал написать про то, как использую онтологии в file-first подходе к агентам, но понял что нужен этот вводный пост сначала. Если тема зашла - через пару дней выйдет следующий пост.

🔥➕🔁

Читать полностью…

Refat Talks: Tech & AI

Claude Cowork - десктопный Claude агент для тех, кто не хочет в терминал. Затестил, разберемся что это, как работает и кому нужно.

Итак, Anthropic выкатили Cowork - для меня этот релиз был ожидаемым. Я сам давно использую Claude Code не только для кода - организация файлов, работа с документами, локальные автоматизации. И вижу как adoption Claude Code давно вышел за рамки "инструмент для разработчиков". Логично было упаковать это в более дружелюбный UI.

Что умеет:
- Работать с локальными файлами - читать, редактировать, создавать, удалять в выбранной папке
- Запускать скрипты предустановленные CLI тулы (ffmpeg, pandoc и др) sandbox-е
- Работать с браузером через Claude in Chrome
- Скачивать файлы из интернета (если настройки Claude Desktop позволяют)
- Использовать Skills, Connectors (Google Drive, Gmail, Notion), локальные MCP
- Выполнять задачи параллельно + можно поставить в очередь несколько задач

Важный момент: Cowork и Claude Code - это разные экосистемы. Cowork не читает .claude/ в выбранной папке, игнорирует CLAUDE.md, не подхватывает локальные skills и commands. Он использует только глобальный сетап Claude Desktop. Если у тебя уже настроен Claude Code - придется настраивать Cowork отдельно через UI приложения и наоборот.

Ограничения:
- Только macOS (Windows в планах)
- Только Claude Max ($100-200/мес)
- Не синхронизируется между устройствами
- Не помнит предыдущие сессии
- Research preview - выкатили очень быстро, есть баги и лагает

Мои эксперименты (оба на видео)

Эксперимент 1: Организация Downloads
Справился норм: быстро распознал что на скриншотах, переименовал логично, разложил по категориям и датам. Ничего лишнего не удалил и не создал.

Эксперимент 2: YouTube → вертикальные шортсы
Тут интереснее. Задача: скачать видео с youtube, нарезать на вертикальные шортсы (9:16) по смыслу с текстовыми надписями!
Что произошло (без моего вмешательства):
- Скачал видео через yt-dlp
- Субтитры и Whisper не сработали (не смотря на разрешение сети) - нашел обходной путь через визуальный анализ кадров
- Написал Python-скрипт с ffmpeg, создал 20 шортсов с правильным aspect ratio и наложил подписи на видео

Стоит ли использовать?

Если ты уже в Claude Code - не вижу смысла переключаться. CC дает больше контроля и гибкости, файлы открыты в IDE, видишь изменения в реальном времени. Плюс твой сетап (MCP, skills, CLAUDE.md и тд) там уже работает - в Cowork его нет. Да и скорость работы заметно меньше - все-таки сандбокс.

Если терминал пугает - Cowork отличная точка входа в агентные возможности. Тут мой совет: не давай Cowork доступ к критичным папкам. Создай отдельную рабочую директорию, работай там. И внимательно читай что Claude собирается делать перед подтверждением.

Полезные ссылки
- Официальный анонс
- Обсуждение на Reddit
- First impressions от Simon Willison - технический разбор, виртуализация под капотом
- 🤩 Product deep dive - история как делали Cowork - 10 дней, 4 человека, причем весь код написал Claude Code, увлекательное чтиво
- ✨ Waitlist - если нет Max подписки
пост Саши про его кейс с доками, пост Тимура про то как Сowork был завайбкожен

---

Интересно как это будет развиваться. Вижу тренд: агентные возможности с доступом к файлам и исполняемой средой спускаются к массовому пользователю. OpenAI с Operator идут через браузер, Anthropic - через файловую систему. Посмотрим что окажется более востребованным.

Читать полностью…

Refat Talks: Tech & AI

Сила generative UI в ограничениях.

Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.

Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool show_widget, который инжектит HTML прямо в DOM страницы, и самое интересное это ограничения: минималистичная дизайн-система, последовательность строго "стили → контент → скрипты" чтобы виджет рисовался по мере генерации и не ломался. И прикольный трюк с read_me, по сути ленивая загрузка документации для экономии контекста. Автор пересобрал всю систему для терминального агента!

Неплохие примеры в действии можно посмотреть еще тут.

Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.

Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.

И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.

Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).

GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.

Так или иначе, лучший генеративный интерфейс рождается в ограничениях)

🔥 ➕ 🔁 @nobilix

Читать полностью…

Refat Talks: Tech & AI

Кэш в LLM API. Один параметр, который может изменить всю экономику inference.

На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.

Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.

В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза

У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.

- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.

- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.

- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.

- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.

- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.

- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.

- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.

- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.

- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.

- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.

- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.

- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.

- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.

- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.

- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.

- Codex Desktop от OpenAI вышел на Windows.

- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.

- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.

- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!

- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.

- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.

- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.

- Сразу три крупных релиза своих OpenClaw облачных автономных агентов: Perplexity запустил Computer. Cursor запустил Cloud Agents. Notion выпустил Custom Agents, Microsoft представила Copilot Tasks.

- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.

- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.

- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.

- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.

- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.

- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)

- OpenAI объявила, что SWE-bench Verified больше не актуален.

- Claude Code получил Auto Memory: через /memory агент сам ведет блокнот о проекте, данные сохраняются между сессиями.

- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.

- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.

- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.

- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.

- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.

- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.

- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.

- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.

- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Google выпустила Gemini 3.1 Pro - серьезный скачок по бенчам, трехуровневый thinking, контекст 1M токенов.

- Anthropic выпустила Claude Sonnet 4.6 - апгрейд кодинга, computer use и long-context reasoning. На 40% дешевле Opus.

- Alibaba выпустила Qwen 3.5 - MoE на 397B параметров. 201 язык, Apache 2.0. По бенчам на уровне фронтирных моделей.

- xAI выпустила Grok 4.20 в бете - мультиагентная архитектура из 4 специализированных агентов, работающих параллельно.

- OpenAI поглотила OpenClaw. Создатель Питер Штайнбергер возглавит направление personal agents. Проект остается опенсорсным, переезжает в независимый фонд.

- OpenAI привлекает рекордный раунд ~$100B при оценке ~$830-850B. Крупнейшая сделка в истории частного финансирования. Среди инвесторов SoftBank, Nvidia, Amazon, Microsoft.

- Anthropic выпустила Claude Code Security - инструмент с multi-stage self-verification. Нашли 500+ уязвимостей в опенсорс-проектах, некоторые существовали десятилетиями. После анонса акции cybersecurity-компаний просели (JFrog -24.6%).

- Пентагон использовал Claude через Palantir для планирования операции в Венесуэле.

- Seedance 2.0 от ByteDance вызвал крупнейший copyright-скандал в AI-видео. Disney, Paramount, Netflix, Warner Bros потребовали прекратить нарушения. ByteDance частично откатились и пообещали safeguards.

- Figma выпустила интеграцию с Claude Code ("Code to Canvas") - можно перенести работающий UI из Claude Code в редактируемые Figma-слои через MCP. Работает в обе стороны.

- Anthropic обновила политику использования - подписку Claude теперь нельзя использовать через сторонние инструменты (Cline, Roo Code, OpenClaw). Начались баны аккаунтов злоупотребляющих этим, что вызвало негативную реакцию сообщества.

- OpenAI тихо обновила миссию, убрав слова про безопасность и отсутствие финансового мотива. Было: "Build AI that safely benefits humanity, unconstrained by need to generate financial return". Стало: "Ensure AGI benefits all of humanity".

- Google добавила в Gemini генерацию музыки через Lyria 3 - треки до 30 секунд из текста или изображений. SynthID маркировка.

- GitHub Agentic Workflows вышел в technical preview - автоматизация репозиториев через AI-агентов в GitHub Actions. Описываешь желаемый результат в Markdown, агент выполняет.

- Cohere Labs выпустила TinyAya - открытые мультиязычные модели (3.35B) для 67+ языков. Работает на устройствах без интернета.

- Kitten TTS V0.8 - сверхмаленькая TTS-модель, самая маленькая версия всего 14M параметров (25 МБ), работает на CPU. Apache 2.0.

- World Labs (Fei-Fei Li) привлекла $1B при оценке ~$5B. Продукт MARBLE создает 3D-миры из текста, изображений и видео.

- Manus (Meta) запустил AI-агентов в Telegram - полноценный Manus с reasoning, tools и multi-step задачами прямо в мессенджере.

- Cursor запустил Marketplace - плагины для полного цикла разработки: skills, MCPs, субагенты, хуки.

- ARC-AGI-3 - новый интерактивный бенчмарк reasoning для AI-агентов. Полный запуск 25 марта.

- Anthropic опубликовала исследование работы людей с AI-агентами на основе миллионов взаимодействий в Claude Code. Много интересного.

- Исследование влияния LLM на книжный рынок: за 3 года количество новых книг утроилось, среднее качество снизилось. Но топ-1000 книг по категориям стали лучше - опытные авторы выиграли, новые проиграли.

- React вайб-кодерам на заметку: React Doctor - новый, но быстро набирающий популярность инструмент для диагностики React-кода.

Читать полностью…

Refat Talks: Tech & AI

Самые полезные вещи про AI я узнаю из разговоров с теми, кто уже внедрил и набил шишки.

19–20 февраля как раз такой формат: ROИИ 2026. Конфа, где спикеры делятся опытом внедрения: ROI, P&L, unit-экономика, стоимость ошибок, практические советы по внедрению.

Выступаю и слушаю. Спикеры: фаундеры, тех-лиды, CPO, CTO и Head of AI.

• первый день "Продукт и стратегия" (я выступаю в этот день)
• второй день про "AI-Маркетинг и Рост"

Участие бесплатно при подписке на спикеров (на многих вы и так подписаны).

• Полная программа на сайте
Добавить в календарик
• Shortcut: регистрация в боте по ссылке

Читать полностью…

Refat Talks: Tech & AI

Slidev - пожалуй лучший способ создавать презентации в эпоху AI. Markdown-first, с мощным тулингом и экспортом в PDF и PowerPoint. Делюсь своим опытом.

Инструментов для презентаций сейчас вагон - от классических PowerPoint и Google Slides до Figma Slides, Gamma, и в каждом втором туле от NodebookLM до Perplexity. Но для своих выступлений, перепробовав кучу вариантов, я как file-first адепт искал инструмент на базе markdown. Сначала это был Marp - хорош для минимальных слайдов, но ограничен. В Slidev я нашел все что не хватало.

Почему markdown для презентаций - это мощно

Все крутится вокруг идеи что слайды - это текстовый файл. Это значит:

- Хирургическая точность - find & replace, regex, массовые правки за секунды. В одной из моих през было около 50 логотипов технологий - конечно проще было это сделать кодом чем тягать в визуальном редакторе.
- Рефакторинг и рестайлинг - поменял тему в одной строчке frontmatter и все слайды перестроились. Поменял шрифт - тоже одна строчка.
- Git-friendly - нормальные диффы, версионирование, бранчи. Презентация лежит рядом с кодом проекта.
- Hackable - это веб-приложение под капотом (Vue 3 + Vite), если чего-то не хватает, можно встроить что угодно: npm-пакеты, API-запросы, интерактивные компоненты. Одна только возможность использовать какие-нибудь Lucide-icons чего стоит.
- Это просто быстрее - ты тратишь меньше времени на программы презентаций и больше на сам контент.

Что доступно из коробки

- Presenter View - заметки, таймер, preview следующего слайда, remote control с телефона (работает как веб-приложение)
- Экспорт в PDF, PPTX, PNG или деплой как статический сайт.
- Готовые layouts, темы через npm, UnoCSS для стилизации
- Mermaid-диаграммы, LaTeX-формулы
- Подсветка кода с пошаговым выделением строк (`{2|3-5|7}`)
- Magic Move - анимированная трансформация одного блока кода в другой
- Monaco Editor - live coding с автокомплитом прямо в слайде
- Рисование на слайдах во время презентации
- VS Code расширение - preview, навигация по слайдам, drag-and-drop
- И многое другое, но в минимальной комплектации это все может быть просто один файл slides.md и одна команда npx slidev

AI-ready

Есть Agent Skill который ставится одной командой npx skills add slidevjs/slidev (хех, сначала у меня был свой, но недавно выкатили официальный). Плюс презентацию можно разбить на отдельные .md файлы - супер-удобно с точки зрения контекст инжиниринга.

Slidev позиционируется как "presentation slides for developers". Но имхо с AI-агентами это доступно примерно всем - тем более с таким удобным тулингом. Будете делать презентации - попробуйте!

🔥➕🔁 @nobilix

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Anthropic выпустила Claude Opus 4.6 - 1M токенов контекста в бете, 68.8% на ARC-AGI 2. Модель заметно сильнее в кодинге и агентных задачах. Цена на уровне Opus 4.5.

- OpenAI выпустила GPT-5.3-Codex - 77.3% на Terminal Bench, вдвое экономнее по токенам и на 40% быстрее предыдущей версии. Мой пост про оба релиза.

- Qwen выпустили Qwen3-Coder-Next - 80B параметров при 3B активных (MoE), 256K контекст (до 1M), 70.6% на SWE-Bench. Опенсорс-модель специально для кодинг-агентов с инструментами и восстановлением после ошибок.

- Kling 3.0 - видеосинтез с нативным аудио, мультишот 3-15 сек, добавили поддержку речи, диалогов и сохранение облика персонажей. По качеству на уровне Sora 2 и Veo 3.1.

- Apple интегрировала Claude Agent SDK в Xcode - по сути Claude Code прямо внутри Xcode.

- OpenAI платформу OpenAI Frontier для enterprise-агентов с контекстом бизнеса, средой выполнения и обучением на ходу, а Anthropic запустили Cowork Plugins для enterprise-scale агентов в Claude.

- VS Code запустил Agent Sessions - единое рабочее пространство для локальных, фоновых и облачных агентов. Поддержка Claude и Codex, параллельные субагенты, встроенный браузер.

- OpenAI выкатила Codex App на macOS - параллельные агенты, автоматизации по расписанию и skills, а ChatGPT получил полную интеграцию MCP Apps.

- Claude Code добавили команду /insights - анализирует все ваши сессии и выдает выводы и советы, а еще Agent Teams позволяет координировать несколько параллельных сессий Claude Code, работающих как команда. Ну, и можно упомянуть новые советы Бориса (создателя CC).

- SpaceX поглотила xAI, создав самую дорогую частную компанию в мире. xAI оценили в $125 млрд, SpaceX в $1 трлн.

- Сделка NVIDIA и OpenAI на $100 млрд трещит по швам. За 5 месяцев контракт так и не подписан. При этом OpenAI остро нуждается в кэше.

- Anthropic vs OpenAI: рекламная война. Anthropic показала рекламу на Super Bowl, высмеям планы OpenAI по рекламе в ChatGPT, и пообещала, что Claude останется без рекламы. Altman в ответ написал целое эссе, с критикой Антропик и что у ChatGPT намного больше пользователей.

- Cerebras привлек $1B в Series H при оценке $23B (лид Tiger Global). 5 месяцев назад оценка была $8B - рост почти в 3 раза. Плюс партнерство с OpenAI на $10B.

- OpenAI подключила GPT-5 к автономной лаборатории Ginkgo Bioworks и снизила стоимость синтеза белков на 40%. AI, который реально двигает науку.

- Вышла Voxtral Mini 4B Realtime от Mistral - речевая модель на 13 языков с латенси от 240ms. Открытые веса, Apache 2.0.

- Figma запустила Vectorize - AI-конвертация любых картинок в вектор.

- ACE-Step 1.5 - мошная модель для локальной генерации песен, MIT лицензия, всего 4GB VRAM.

- Falcon-H1-Tiny от TII - микромодели меньше 100M параметров для edge-устройств с 94% точностью tool-calling.

- GLM-OCR - SOTA в распознавании документов при всего 0.9B параметрах. Формулы, таблицы, извлечение информации.

- LingBot-World - опенсорс-аналог Genie3. Генерит интерактивные видео-миры в реалтайме (720p, 16fps). Под капотом MoE 28B на базе Wan 2.2.

- Granola выпустила MCP-интеграцию, контекст из встреч теперь доступен в любом AI-приложении.

- AI-паника на рынке софта: страхи инвесторов, что AI обесценит софтверные компании, перекинулись на частные фонды. Blue Owl, TPG, Ares, KKR просели двузначно, iShares Software ETF -20% с начала года.

- Вышел AI Safety Report 2026 - огромный и качественный отчет о рисках и возможностях ИИ от 100+ ученых из 30 стран.

- YC опубликовал Spring 2026 Requests for Startups - 10 направлений: AI-native workflows, stablecoins, модернизация промышленности и госсектора, "Cursor for PMs", AI-native агентства.

Читать полностью…

Refat Talks: Tech & AI

Возможно, нам нужен MCP наоборот?

MCP позволяет подключать инструменты к агентам. Берешь Claude Code или Codex, цепляешь MCP-серверы - и агент получает доступ к GitHub, базам данных, браузеру, чему угодно. Это работает.

Но есть обратная ситуация. Иногда ты работаешь не в агенте, а в самом инструменте. Пишешь документ в Google Docs. Собираешь слайды. Работаешь в Figma. Редактируешь что-то в Notion. И вот прямо здесь, в этом контексте, тебе нужен твой агент - тот, который настроен под тебя, знает твои привычки, имеет нужные скиллы и интеграции.

А что тебе предлагают? Что-то типа Notion AI. Какой-то сайдбар чат с "умной моделью" без нужной памяти и навыков за пределами самого продукта. И такие сайдбары теперь везде. Каждый продукт хочет сделать своего агента. Gmail, Notion, Slack, Asana, Monday, Figma, Canva и т.д. - все лепят чаты справа (реже слева).

Мне кажется, именно поэтому ими мало пользуются. Это чужеродный помощник. Вот например ты проектируешь компонент в Figma. Хочешь быстро посмотреть, как это решают конкуренты, глянуть best practices, свериться с документацией твоей дизайн-системы. Твой агент умеет делать deep research и знает контекст проекта. Я сейчас не только про память, но и про навыки (skills/mcp/subagents/и тд), которыми ты так привык уже пользоваться. Но позвать его нельзя — вместо этого Figma предлагает свой AI, который ничего этого не умеет и не знает.

Было бы здорово придумать механизм не "подключи инструмент к агенту", а "подключи своего агента к инструменту". Работай с ним там, где тебе нужно, а не только в его интерфейсе.

Что думаете? И кто-нибудь уже строит такое?

🔥➕🔁

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- Moonshot AI выпустили Kimi K2.5 - открытая модель на уровне Opus 4.5. 32B активных из 1T параметров, контекст 256K, нативное видео. SOTA на HLE, BrowseComp, SWE-bench. Координирует до 100 сабагетов. Цена API - 10% от Opus.

- Anthropic добавила в Claude интерактивные инструменты прямо в чате: Amplitude, Asana, Box, Canva, Figma. Под капотом MCP Apps - расширение протокола MCP для интерактивного UI внутри AI-продукта. Партнеры: OpenAI, Block, VS Code, JetBrains, AWS.

- OpenAI запустили Prism - бесплатный LaTeX-редактор для ученых на GPT-5.2 с AI-ассистентом, управлением цитатами и конвертацией набросков в диаграммы. Целится в Overleaf.

- Google запустил Auto Browse - AI-агент в Chrome с автономным браузингом через Gemini и split-screen интерфейсом.

- Команду Cline поглотил OpenAI - перешли в группу Codex. Kilo Code (форк Cline) в ответ объявил открытие бэкенда к 6 февраля.

- Microsoft представила AI-ускоритель Maia 200: 216 ГБ памяти, 10K TFLOPS в FP4, заявляют 3x против Trainium v3. Уже запускает GPT-5.2 и Copilot.

- ChatGPT получил контейнеры - Code Interpreter теперь поддерживает 11 языков, pip/npm install и скачивание файлов.

- OpenAI убирает GPT-4o и старые модели с 13 февраля (API пока не убирают).

- xAI запустили Grok Imagine API - видеогенерация с аудио, до 15 сек, $4.20/мин. Сразу #1 на лидербордах.

- Google DeepMind запустили Project Genie - генерация интерактивных миров из текста в реальном времени. Пока только для AI Ultra подписчиков в США.

- Google DeepMind опубликовали AlphaGenome - AI для анализа до 1 млн пар оснований ДНК, обгоняет аналоги на 25 из 26 бенчмарков. Open source.

- Alibaba выкатила сразу три релиза: Qwen3-ASR - распознавание речи на 52 языках, серию TTS-моделей и Qwen3-Max-Thinking - новую флагманскую reasoning-модель.

- На фоне конфликта с Пентагоном за военное использование Claude Дарио Амодей опубликовал эссе "The Adolescence of Technology" - AI должен защищать демократии, но не ценой превращения в авторитарный инструмент.

- Meta анонсировала AI-шоппинг агентов и большой AI-роллаут на 2026.

- Еврокомиссия дала Google полгода на открытие Android для конкурирующих AI-ассистентов в рамках Digital Markets Act.

- DeepSeek опенсорснули OCR 2 - 3B модель с 16x сжатием визуальных токенов, 91% на OmniDocBench.

- Mistral выпустили Vibe 2.0 - CLI-кодинг-агент с субагентами и кастомными навыками. Под капотом Devstral 2.

- AI2 выпустили открытые coding-агенты с рецептом обучения для приватных кодовых баз.

- NVIDIA опубликовали ToolOrchestra - 8B-модель-дирижер для координации экспертных моделей через RL. На HLE обгоняет GPT-5 при стоимости в 3 раза ниже.

- Cursor и партнеры (Cognition, Vercel, Cloudflare) представили Agent Trace - открытый стандарт трассировки AI-сгенерированного кода.

- MiniMax выпустили десктопного AI-агента для Mac и Windows - файлы, контент, автоматизация браузера. Пока бесплатно.

- Анализ показал, что подписки Claude до 36x дешевле API за счет бесплатных cache reads. Sweet spot - Max 5x ($100/мес).

- Hugging Face выпустили Daggr - опенсорсную библиотеку для AI-воркфлоу: пишешь пайплайн в Python, визуальный канвас генерируется сам.

- Decart AI показали Lucy 2 - замена лица в реальном времени, 1080p 30fps, минимальная задержка.

- TinyFish представили AgentQL - запросы к веб-элементам на естественном языке вместо CSS/XPath. AI находит элементы по смыслу.

- OpenClaw (ex-ClawdBot) - self-hosted AI-ассистент в мессенджерах взорвал соцсети. Только за эту неделю: два переименования из-за trademark-претензий Anthropic, дефицит Mac Mini в магазинах, волна утечек данных и фейковые крипто-токены. О нем написали многие, вы точно уже устали от этих новостей, так что подождем, пока пыль уляжется.

Читать полностью…

Refat Talks: Tech & AI

Reverse Engineering контента

Как навык разборки текстов на запчасти поможет думать структурнее, сделает контент сильнее и даже может улучшить ваши AI-приложения.

В мире софта reverse engineering - это когда берешь готовый софт и восстанавливаешь из него исходный код, или хотя бы принцип устройства. С текстом можно делать то же самое.

Те, кто пишет, знают цепочку: тезис → хук → outline → аргументы → текст. Reverse engineering контента - это тот же процесс, но в обратную сторону. Берем чужой текст и разбираем на составляющие: какой тезис, какой фреймворк (AIDA? PAS?), как устроен хук, почему примеры расставлены именно так и т.д.

В CS это называют argument mining, в копирайтинге copy teardown (+ swipe file), в лингвистике - reverse outlining. Суть одна: любой текст можно разобрать обратно на чертеж.

И это полезно не только для тех, кто пишет нон-фикшн. Промпты, документы, спеки, посты, сценарии - благодаря GenAI мы все теперь работаем с текстом постоянно. А LLM генерирует токен за токеном, "вперед", не планируя структуру заранее. Чем точнее вы задаете структуру в промпте, тем лучше результат.

Где применять:

- Для себя: читать тексты, которые впечатлили, не как потребитель, а как аналитик. Какой тезис? Как зацепили в первом абзаце? Какова структура? Накапливаете библиотеку паттернов, которые потом используете сами.

- На работе: например, reverse-engineering контента конкурентов, понять структуру: какие хуки работают, как дозируется экспертиза, какой ритм. Эдакий рецепт. Потенциально может сильно прокачать ваш маркетинг.

- В AI-продуктах: извлечь ключевые возражения из записи sales-звонка, разобрать маркетинговое письмо конкурента на паттерны, cгенерировать драфт по структуре образца. Все это - варианты одной операции: текст → структура.

Пример упрощенного промпта:

Ты - эксперт по reverse outlining и argument mining. Проведи структурную декомпозицию текста. Извлеки:
1. ТЕЗИС: центральная идея в одном предложении
2. ХУК: тип (история/вопрос/статистика/bold claim/pain point/curiosity gap) + целевая эмоция
3. ФРЕЙМВОРК: какой паттерн лучше описывает структуру: AIDA | PAS | PASTOR | BAB | problem-solution | narrative arc | др. Укажи ключевые маркеры в тексте.
4. КАРТА АРГУМЕНТАЦИИ: для каждого смыслового блока: (Claim, Evidence type, cвязь с предыдущим блоком и тд).
5. РИТОРИКА: Ethos, Pathos, Logos - с пояснением.

<text>
...
</text>


Кстати, кмк, этот подход и онтологии решают одну задачу: движение от шума к структуре, но с разных сторон. Онтология - сверху вниз: задаете сущности и правила. Reverse engineering - снизу вверх: извлекаете структуру из готового текста.

Ресурсы для тех, кто хочет копнуть глубже:
- Rhetorical Structure Theory - классика лингвистики, основа NLP-подходов к структуре текста
- Swipe Files и Copy Analysis - это целая экосистема в мире копирайтинга, вот например большой портал с разборами
- Есть и AI стартапы на эту тему, например infranodus.com или maxqda.com

Так что да, у любого текста может быть чертеж, а каждый текст, который вас зацепил - может стать частью вашей личной методики.

Читать полностью…

Refat Talks: Tech & AI

Запись тут, преза во вложении (веб-версия).

Еще полезное:
• Больше докладов и записей с конфы ИИтоги можете получить тут
• На стриме был вопрос про eval агентов: не могу не поделиться отличной свежей статьей от Anthropic на эту тему
• Еще в блоке вопросов была тема сандбоксинга и прокси, по этой теме будет пост, а пока вот пару ссылок: раз, два

🙌

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- OpenAI предлагает OpenResponses как новый стандарт API для LLM на базе своего Responses API. Google и Anthropic вряд ли согласятся, но OpenRouter, LM Studio, Vercel, Hugging Face уже вписались.

- Google выкатил Personal Intelligence для Gemini - подключает Gmail, YouTube, Photos и другие сервисы как контекст. Начали с платных подписчиков в США.

- OpenAI официально объявила о рекламе в ChatGPT. Пока для бесплатных пользователей и нового тарифа ChatGPT Go за $8/мес в США.

- Anthropic выпустила Cowork, десктопный Claude-агент для тех, кто не хочет в терминал.

- Google начинает показывать персонализированную рекламу в AI-режиме поиска. Gemini определяет, когда пользователь готов к покупке.

- Параллельно Google запустили открытый Universal Commerce Protocol для покупок через AI-агентов без выхода с платформы.

- Apple официально будет использовать Gemini и облачную инфраструктуру Google для своих базовых AI-моделей за примерно $1 млрд в год. Сотрудничество с OpenAI продолжается.

- OpenAI выкатила GPT-5.2-Codex в API. Cursor одним из первых завез новую модель и очень ее хвалит для агентных сценариев.

- OpenAI подписала контракт на $10+ млрд с Cerebras Systems на чипы для inference. Cerebras готовится поднять $1 млрд при оценке $22 млрд. Только Nvidia "купила" Groq, как OpenAI дает контракт конкуренту.

- В Anthropic запустили подразделение Anthropic Labs для экспериментальных продуктов. Возглавляет Майк Кригер (сооснователь Instagram). Оттуда уже вышли Claude Code, Model Context Protocol и Cowork.

- Anthropic выпустила Claude for Healthcare. Аналог недавнего релиза OpenAI - можно подключить медкарты, Apple Health и Android Health. Пока только для платных подписчиков в США.

- Сэм Альтман запустил Merge Labs, конкурента Neuralink. В отличие от Маска, сверлить череп не собираются, сигналы будут считывать удаленно.

- ClickHouse купил Langfuse, open source платформу для LLM Observability. Продукт остается открытым. Параллельно ClickHouse поднял раунд $400 млн при оценке $15 млрд.

- Вышел FLUX.2 klein от Black Forest Labs. Сверхбыстрый генератор изображений, создает картинку менее чем за секунду и работает на домашних видеокартах.

- Китайцы z.ai выкатили GLM-Image, гибридную модель на 16B параметров (авторегрессия + диффузия). Заявляется лучший в мире рендеринг текста в изображениях (91% точности vs 86% у GPT Image 1). Open source.

- xAI запустила Colossus 2, первый гигаваттный AI-кластер. Потребляет больше электричества, чем весь Сан-Франциско.

- Claude Code научился искать нужный инструмент из MCP-сервера, не забивая весь контекст.

- OpenAI выкатила ChatGPT Translate, конкурента Google Translate. Упор на тон и контекст, пока сырой - часто воспринимает переводимый текст как инструкцию. Google почти сразу после этого выложила в open source TranslateGemma.

- Создатель Signal Moxie Marlinspike запустил Confer, приватную обертку для AI с end-to-end шифрованием. Работает через Trusted Execution Environment, даже админы не видят данные.

- Digg возвращается? Основатель Кевин Роуз и сооснователь Reddit Алексис Охания запустили открытую бету конкурента Reddit.

- Линус Торвальдс вайбкодит (такая вот новость): для своего хобби-проекта AudioNoise (гитарные эффекты) написал визуализатор на Python с помощью Google Antigravity.

- Внимание тем, кто хостит n8n: уязвимость CVE-2026-21858 (Ni8mare) имеет максимальную оценку опасности и позволяет неаутентифицированному злоумышленнику получить полный контроль над сервером. Срочно обновляйтесь.

- Anthropic обновила Economic Index: AI чаще заменяет, чем помогает: 77% vs 41% год назад, еще показывают как AI забирает сложные задачи, оставляя рутину, в общем - интересно.

Читать полностью…

Refat Talks: Tech & AI

Почему компании, которые больше всех вкладывают в AI, меньше всех довольны результатами?

По данным Gartner: инвестиции выросли на 40%, количество внедрений - на 78%. А удовлетворённость CEO упала ниже 30%.
Парадокс.
MIT пошли дальше и посчитали воронку: из 100 AI-пилотов только 5 дают реальную бизнес-ценность.

Я много копал эту тему. Разговаривал с командами, которые внедряют AI в enterprise и внедрял сам. Смотрел что работает, что нет. И нашел три системных разрыва, которые убивают ROI.

30 января на бесплатной конференции Стратоплана, на которую меня пригласили раскрыть эту тему буду делиться инсайтами и кейсами.
Конференция идет 3 дня, 29-31 января. Бесплатно, онлайн. Еще 12 спикеров включая С-level AI-driven стартапа из топ-50 App Store.

Доклад полезнее всего будет CTO и фаундерам, но приглашаю всех кому интересно!

🗓️ 30 января с 11:25 - 12:10 GMT+3 Добавить в календарь
🆓 Участие бесплатно.
🌐 Детали и регистрация

Читать полностью…

Refat Talks: Tech & AI

#ReDigest

Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.

Дайджест недели:

- OpenAI запустили ChatGPT Health - изолированное пространство для медицинских вопросов с отдельной памятью, усиленным шифрованием и без использования данных для обучения. Можно подключить Apple Health, медкарты и анализы. Пока waitlist для США.

- xAI привлекла $20 млрд в раунде Series E при оценке ~$230 млрд.

- Google переводит Gmail в "эру Gemini". Вместо поиска по ключевым словам теперь можно спрашивать естественным языком, улучшают драфтинг и суммаризацию.

- Meta заключила соглашения с TerraPower (Билла Гейтса), Oklo (через SPAC Сэма Альтмана) и Vistra на тысячи мегаватт ядерной энергии для AI-дата-центров.

- Помните покупку Manus? Китайские регуляторы начали проверку сделки. Проверяют "переезд" из Китая в Сингапур полгода назад. Может возникнуть юридическая ответственность… включая уголовную.

- DeepSeek представили mHC (Manifold-Constrained Hyper-Connections) - архитектурный патч для трансформеров, который стабилизирует обучение очень больших моделей. Эксперты называют это одной из важнейших оптимизаций трансформеров за последние годы.

- Исследователи из MIT представили Recursive Language Models (RLMs) - парадигму, где модель рекурсивно вызывает саму себя, декомпозируя задачу и работая с контекстом в 10M+ токенов как с переменной.

- OpenAI запустили Grove - программу для AI-предпринимателей с менторством, доступом к новым моделям и офлайн-воркшопами в SF. Заявки до 12 января.

- Liquid AI выпустили LFM2.5 - модели на 1.2-1.6B параметров для on-device агентов. На MMLU-Pro обходят Llama 3.2 1B вдвое (44 vs 21).

- Amazon открыл Alexa Plus в вебе на Alexa.com - теперь можно загружать документы, работать с рецептами и управлять умным домом из браузера с уникальным доступом к крупнейшему магазину мира (который блокирует все остальные AI-агенты).

- Агент от SakanaAI занял первое место на AtCoder Heuristic Contest, обойдя ~800 участников. Обертка над GPT-5.2 high и Gemini 3 Pro high от известной японской лабы.

- Исследователи из Торонто ставят под сомнение апокалиптические прогнозы об автоматизации. Аргумент если просто: тогда машина берет рутину, работник фокусируется на оставшемся и выполняет лучше.

- CES 2026: Nvidia представила архитектуру Rubin на смену Blackwell, Intel показала Core Ultra Series 3 на 18A, Lenovo анонсировала AI-платформу Qira, LG вернула "Wallpaper TV" толщиной с карандаш, а Switchbot пообещал продавать робота Onero H1, который сам загружает стиральную машину. И крутяк от лего.

- Разгорелась AI драма вокруг Tailwind CSS, которая уволила 75% команды: говорят трафик на документацию упал на 40% с 2023 года, доход - на 80%: разработчики спрашивают AI вместо чтения доки. Однако ирония: сразу же появились спонсоры.

- Связанное с моим постом Anthropic заблокировала использование подписки Claude Code с OpenCode. Но вообще, ничего серьезного - без банов и обходные пути нашли за часы.

- 🔥 Полезное: папка со 100+ отчетами по трендам на 2026 год от McKinsey, Deloitte, Forrester, Gartner и других. [источник]

Читать полностью…
Subscribe to a channel