3001
Авторский канал по ВАЙБ КОДИНГУ, сотрудничество: @nikwolve
OpenAI выкатили PDF о том, как они используют Codex внутри компании
И документ конечно полезный 😺
Их инженеры из команд безопасности, инфраструктуры, фронтенда и API используют его каждый день для:
- быстрого понимания незнакомых кодовых баз, особенно во время инцидентов
- рефакторинга изменений, затрагивающих десятки файлов
- генерации тестов для краевых кейсов, которые разработчики обычно пропускают
- скаффолдинга бойлерплейта, чтобы быстрее доставлять фичи
- сохранения фокуса, когда календарь забит встречами
особенно зацепила эта цитата:
один инженер сказал:
«я весь день сидел на встречах и всё равно замержил 4 PR, потому что Codex работал в фоне»
Открыли исходники Marlin-2B
Это компактная визуально-языковая модель для извлечения структурированной информации из видео
Marlin дообучен под два ключевых запроса, которые чаще всего нужны разработчикам при работе с видео: что происходит и когда именно
модель в своём классе по размеру показывает сильные результаты, конкурирует с Gemini-2.5-flash при всего 2B параметров
Marlin обучался в двух режимах:
1. marlin.caption() возвращает структурированный JSON со сценой и событиями, с таймкодами с точностью до секунд.
Это можно использовать для генерации субтитров к роликам в Reels, индексации видеобиблиотеки или для передачи агенту контекста о том, что и когда произошло в видеопотоке.
2. marlin.find() возвращает таймкоды (начало, конец) для любого запроса на естественном языке по видео.
достаточно быстрый, чтобы работать прямо в цикле агента; можно использовать для поиска фрагментов видео с точностью до долей секунды
модель: https://huggingface.co/NemoStation/Marlin-2B
демо: https://vlm.nemostation.com/
800 миллионов бесплатных токенов в месяц 😏
Кто-то собрал бесплатные тарифы десятков моделей ИИ в единый интерфейс API.
Ты вводишь свои API-ключи, дальше система автоматически управляет:
• маршрутизацией между моделями
• лимитами запросов
• переключением на другого провайдера при достижении лимита
• балансировкой нагрузки между провайдерами
Не нужно вводить банковскую карту. Нет неожиданных списаний. Нет постоянного переключения между разными API.
https://github.com/tashfeenahmed/freellmapi
Google выкатили Gemini 3.5 Flash и Antigravity 2.0
Судя по заявленным бенчам, Gemini 3.5 Flash обгоняет Gemini 3.1 Pro в агентных и кодинговых задачах:
• Terminal-Bench 2.1 – 76,2%
• MCP Atlas – 83,6%
• GDPval-AA – 1656 Elo
Также Google утверждает, что 3.5 Flash генерирует в четыре раза больше токенов в секунду по сравнению с другими frontier-моделями. Версию Gemini 3.5 Pro обещают в следующем месяце.
Параллельно анонсировали Antigravity 2.0 – новую dev-среду под агентный воркфлоу. В новой версии добавили CLI (на замену Gemini CLI) , SDK, нативную поддержку голоса и интеграции с Android, Firebase и Google AI Studio. Платформа оптимизирована под Gemini 3.5 Flash, поддерживает сабагентов и асинхронные таски
👍
Пользователей Windows в 5 раз больше, чем Mac. Но официально управлять Codex с телефона можно только на macOS. 😭
upd: функция есть, просто она скрыта в версии для Windows.
Вот как её активировать, чтобы управлять Codex с телефона на Windows:
1. Откройте Codex Windows и перейдите в Settings
2. В разделе Configuration нажмите Open config.toml
3. В открывшемся файле добавьте эти строки и сохраните:
[features]
remote_control = true
config.toml только для чтения:C:\Users\[ваше_имя]\.codex)PropertiesRead-only, нажмите Apply, затем перезапустите Codex
Thariq из Антропик, поделился годным промтом, которым часто пользуется:
implement <SPEC> and while you do, keep a running implementation-notes.html file (or markdown) with decisions you had to make weren't in the spec, things you had to change, tradeoffs you had to make or anything else I should know
<SPEC> и при этом вести файл implementation-notes.html (или markdown) с заметками о решениях, которых не было в спецификации, изменениях, компромиссах, на которые пришлось пойти и тд.
10 самых быстрорастущих репозиториев на GitHub за предыдущую неделю:
▪️CloakBrowser (+14K звёзд)Читать полностью…
Стелс-версия Chromium, проходящая все тесты на детект ботов. Полноценная замена Playwright с патчами отпечатков на уровне исходников. Пройдено 30/30 тестов.
▪️AiToEarn (+14.8K звёзд)
ИИ для заработка
▪️agentmemory (+11K звёзд)
Постоянная память №1 для ИИ-агентов под кодинг, основанная на бенчмарках из реальных сценариев.
▪️UI-TARS-desktop (+3.5K звёзд)
Опенсорсный стек мультимодальных ИИ-агентов: связка передовых ИИ-моделей и агентной инфраструктуры.
▪️9router (+34.4K звёзд)
Безлимитный бесплатный ИИ-кодинг. Подключает Claude Code, Codex, Cursor, Cline, Copilot и Antigravity к бесплатным Claude/GPT/Gemini через 40+ провайдеров. Авто-фолбэк, RTK -40% токенов, без упора в лимиты.
▪️DeepSeek-TUI (+31.4K звёзд)
Кодинг-агент для моделей DeepSeek, работающий прямо в терминале.
▪️AI-Trader (+17.0K звёзд)
«AI-Trader: полностью автоматизированный трейдинг с агентной архитектурой».
▪️skills (+18.3K звёзд)
Скиллы для настоящих инженеров от mattpocock . Прямо из директории .claude.
▪️supersplat (+8.3K звёзд)
Редактор 3D Gaussian Splat.
▪️hysteria (+21K звезды)
Сверхбыстрый и устойчивый к цензуре прокси.
Китайские студенты покупают доступ к API GPT-5.4/5.5 и Claude через прокси-продавцов на Xianyu и Taobao почти на 96–97% дешевле обычной цены. 😁
По сообщениям, люди сжигают больше 100M токенов в день примерно за $1 и без остановки вайбкодят.
Используются так называемые «прокси-станции».
Схема простая: кто-то массово закупает API-кредиты или аккаунты, прогоняет весь трафик через свои серверы и перепродаёт доступ по сильно сниженной цене.
Из минусов то , что переписка и промпты, скорее всего, логируются на промежуточной инфраструктуре и уходят в чужое хранилище данных.
Claude Mythos, похоже обошёл систему защиты Apple стоимостью около $2 млрд. Причём через совершенно другой вектор атаки.
По словам исследователей, на поиск уязвимости ушло всего 5 дней и примерно $35K расходов на Mythos API. Для сравнения: эксплойты такого класса на сером рынке обычно оцениваются в диапазоне $5–10 млн.
Команда, которая воспроизвела атаку, подготовила 55-страничный отчёт и лично передала его в штаб-квартиру Apple. Есть надежда, что материалы опубликуют после выхода патча.
Самое интересное: механизм MIE у Apple, судя по описанию, действительно отработал так, как задумывался. Проблема в том, что Mythos нашёл способ полностью обойти защиту через отравление данных, поступающих в чип M5.
На этом этапе становится всё сложнее воспринимать Mythos как очередную демонстрацию возможностей на бумаге.
Как на этой неделе прямо подтвердила red-team команда Anthropic:
вопрос уже не в вычислительных ресурсах. Речь идёт о национальной безопасности.
На случай, если вы пропустили – DeepSeek V4 Flash сейчас доступна бесплатно в OpenCode 🎅
Читать полностью…
Полезный совет, чтобы сократить time-to-first-token (TTFT) для длинных промптов в API: заранее прогрей кеш промпта.
Отправь system prompt раньше user prompt. Claude запишет его в кеш, но не будет генерировать ответ.
Когда придёт реальный запрос пользователя, он попадёт уже в «прогретый» кеш. 🏋️♂️
Как Codex 5.5 medium побеждает Codex 5.5 extra high?
Добавь это правило в Agents.md:
"Не борись с ошибками! Каждый раз, когда ты сталкиваешься с одной и той же ошибкой дважды, изучи веб и найди 3–5 возможных способов её исправления. Затем выбери самое эффективное решение и реализуй его."
C 15 июня подписчики Claude получат отдельный ежемесячный API-кредит – $20, $100 или $200 в зависимости от тарифа.
Эти средства можно использовать для работы с Agent SDK, запуска Claude в интерактивном режиме через claude -p, GitHub Actions и сторонних приложений на базе Claude. При этом обычные чаты и Claude Code расходуют отдельные лимиты и не затрагивают API-баланс
Тем самым Антропики красиво забрали claude -p 😸
https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд от Hugging Face помогает во всём разобраться. 🌟
// Обвязка агента через код //
Отчёт на 100+ страниц по всем аспектам, связанным с агентными обвязками: https://arxiv.org/abs/2605.18747
В частности, обзор суммирует методы и применения кода как обвязки для агентов.
В статье приводится сильный аргумент, что такой подход может быть ключом к переходу к более широкой науке инженерии обвязок.
Достаточно ли одного кода? Возможно.
В любом случае, в работе утверждается, что будущие системы должны обладать четырьмя свойствами: исполняемость, инспектируемость, состояние, управляемость. 🤑
Claude Code апдейт:
С сегодняшнего дня Claude Managed Agents могут работать в песочнице, которую контролируете вы, и подключаться к вашим приватным MCP-серверам. И песочница, где агент выполняет инструменты, и сервисы, к которым он обращается, работают в рамках заданных границ вашей корпоративной среды, под вашими настройками безопасности и управления исполнением.
Песочница запускается на вашей собственной инфраструктуре либо через управляемых провайдеров вроде Cloudflare, Daytona, Modal или Vercel, которые берут на себя вычисления и изоляцию.
На платформе Claude self-hosted sandbox доступен в публичной бете, а MCP-туннели — в исследовательском превью (по запросу доступа).
доки: https://platform.claude.com/docs/en/managed-agents/self-hosted-sandboxes
и попробуйте скилл claude-api : https://github.com/anthropics/skills/tree/main/skills/claude-api
Опенсорс дизайн-скилл для авто-генерации интерфейсов и лендингов по умолчанию: Hallmark
Работает в Claude Code, Cursor и Codex.
npx skills add nutlope/hallmark
Fast mode теперь по умолчанию использует Opus 4.7 в Claude Code.
Сжечь токены можно командой: /fast
Fast mode обеспечивает качество Opus без изменений, но примерно в 2,5 раза быстрее, при этом стоимость токена выше.
Вчера у Cursor вышел Composer 2.5, и они заявили, что он работает на уровне Opus 4.7 и стоит в 10 раз дешевле
Из интересного:
- Базируется на основе Kimi K2.5.
- Использует targeted RL (модели буквально подсказывают, где именно она ошиблась)
- Тренировали на железе xAI — с Colossus 2 и миллионом H100
- Для тренировки нагенерили в 25 раз больше синтетических задач, чем у Composer 2
Open Design теперь работает прямо внутри Codex.
Самое сложное в вайб-дизайне это не создать один экран, а сохранить замысел дизайна на всём пути: когда ты итеративно правишь, строишь и выпускаешь продукт.
Теперь ваш агент может работать напрямую с канвой. Дизайн → код → анимация, в одном рабочем процессе.
Вот короткая демонстрация:
1/ Сначала попросите Codex запустить Open Design локально:
«Помоги мне развернуть локально и запустить Open Design внутри Codex: https://github.com/nexu-io/open-design»
В VS Code появилось отдельное окно Agents
Оно позволяет запускать и управлять несколькими сессиями AI-агентов в разных проектах и на разных машинах из одного централизованного интерфейса.
→ изолированные воркспейсы для каждой задачи
→ встроенные браузерные превью
→ ревью изменений в коде и диффов
Майкрософт продолжает потихоньку превращать VS Code в полноценную IDE для вайбкодинга 👍
Грег Брокман, один из основателей OpenAI, поделился скиллом для Codex, который анализирует код-базу и показывает, где можно безопасно улучшить производительность. 🙂
Он сканирует проект и проверяет циклы, повторные обращения, тяжёлые участки рендеринга, паттерны N+1 и места, где сложность можно снизить без изменения поведения.
-> анализ сложности кодовой базы
-> паттерны O(n²), O(n*m), детект повторных проходов
-> оценка сложности до/после
-> безопасные предложения по оптимизации
-> уровень риска + необходимые тесты
-> режим только отчёта по умолчанию
-> установка одной командой
Установка: npx --yes codex-complexity-optimizer
100% открытый исходный код.
POV: используешь Claude Opus 4.7 просто чтобы переименовать одну переменную.
Читать полностью…
Память у агентов, это популярная тема
И надо сказать, чем больше людей подключается к этому направлению, тем интереснее становится. 🔥
Команда ИИ из Tencent потратила целых 6 месяцев, решая одну проблему: ИИ-агенты катастрофически теряли контекст в длинных диалогах.
И у них получилось построить полноценную систему памяти для агентов.
Вот 3 приема, которые они поняли по ходу работы:
1. Сжатие устаревшего контекста прямо во время сессии сократило расход токенов на 61%.
2. Структурированная карта задач для агентов (на базе Mermaid) заметно снизила вероятность того, что агент потеряет нить выполнения в воркфлоу из 30+ шагов.
3. Консистентность личности агента выросла с 48% до 76% после добавления отдельной памяти для persona.
Опенсорс.
Преврати любой сайт в API: с помощью /browser-to-api
Этот скилл анализирует сетевую активность, CDP-логи и поведение сайта, чтобы сгенерировать кастомную OpenAPI-спецификацию.
На демке ниже - Codex одним запросом создаёт полностью документированный клиент OpenTable API 👀
Codex теперь доступен на вашем телефоне. 👨💻
Прямо из мобильного приложения ChatGPT можно:
- ответить на вопрос,
- посмотреть, что нашёл Codex,
- скорректировать направление,
- одобрить следующие шаги,
- или добавить новую идею.
При этом Codex продолжит работать на вашем ноутбуке, Mac mini или devbox-е.
Функция начинает распространяться уже сегодня в режиме preview на iOS и Android во всех поддерживаемых регионах.
На Windows появится в ближайшее время.
Антропики временно увеличили еженедельные лимиты на 50%
Акция уже действует и продлится до 13 июля 🤑
Годнота: есть NPM-утилита, которую можно использовать в dev-режиме – она позволяет кликать прямо по UI, указать ИИ, что именно нужно изменить, а затем копировать фидбэк напрямую в ваши ИИ-инструменты для кодинга.
→ инспектит и аннотирует любой элемент
→ генерирует точный контекст компонента
→ работает с Claude Code, Cursor и другими
→ больше никаких расплывчатых промптов и скриншотов
Вместо того чтобы вручную объяснять свой UI… ИИ уже понимает, что вы имеете в виду 👍
Теперь любой может создавать RL-среды для обучения. Для этого разработали скилл - RL_Envs_101
- Можно создавать среды в нескольких фреймворках, таких как OpenEnv, OpenReward, Verifiers, NemoGym и др
- в репозитории есть живые рабочие примеры сред, на которые может ссылаться ваш кодинг агент
- скилл изначально рассчитан на то, чтобы определить, какой тип модели вы обучаете, и уже с учётом этого создавать среду
$ npx skills add adithya-s-k/RL_Envs_101