66251
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
В твиттере наткнулся на очень интересную статистику по длительности выполнения задач на SWE-Bench Verified и качеству разных моделей в этих срезах. Оказывается для каждой из 500 задач есть аннотация её сложности, вычисленной по примерной длительности выполнения. Оценка сделана вручную, но по очень простым критериям (отсюда), например, всё что больше 100 строк — в последнюю категорию.
Над более объёмными задачами уже работают, в SWE-Bench Pro есть сравнение, там уже больше кода писать нужно (и качество, соответственно, меньше).
Вместе с моделью добавили 3 новые фичи:
— инструмент поиска инструментов
— программный вызов инструментов
— примеры для инструментов
Последние два менее интересны, но в целом полезны для практики. Детально читайте в блоге, TLDR: можно показать примеры вызовов инструментов, чтобы не было путаницы с форматом, например, дат, и вызов инструментов через код (так, что промежуточные состояния не попадают в контекст -> не загрязняют его).
А вот поиск инструментов — это маст хэв. Если вы подключаете к Claude Code пару-тройку MCP-серверов с 20-30 инструментами, то сжираете сразу 30-40 тысяч токенов контекста. Мало того что вы платите за них при каждом вызове, так ещё и модель тратит ценное внимание на эти токены. Ещё и работает чуть медленнее. Одни минусы! Кто придумал GitHub MCP на 26 тысяч токенов???
Решение: Tool Search Tool, который из всех подключенных инструментов кладёт в контекст только нужные. На замерах компании это привело к увеличению метрик (с 79.5% до 88.1% на каком-то внутреннем бенчмарке), не говоря уже про все остальные плюсы: цена, скорость, полезный контекст.
Ждём появления у конкурентов
Совсем недавно я рассуждал про мощности, необходимые для тренировки Agent 0 и Agent 1 из работы AI-2027, и пришёл к выводу, что немного отстаём от обозначенных таймлайнов (не успели достроить и запустить датацентры). С выходом GPT-5.1-Codex-Max METR провели оценку длительности инженерных задач, которые модель может решать с 50% успеха, и обновили свой график — и по нему видно, что 2025-й идёт к концу, а Agent 0, который должен отрываться, не видно (см. картинку). Кстати, обратите внимание, что при этом замеренное качество отлично ложится на тренд от самих METR.
Авторы AI-2027 решили прокомментировать обсуждение в Твиттере — там, как известно, люди не любят читать, только кидать картинки и писать краткие ироничные комменты. Очень большое количество людей, конечно, не заглядывали в расчёты и оценки, и теперь им кажется, что смещение мнения авторов с 2027-го на 2028-й или 2029-й — это полная инвалидация всей работы.
В самой же работе, по-моему, яснее некуда было написано, что такое 2027-й и почему авторы выбрали его, и из этого же следовало, что не важно, 2027-й это или 2030-й. Ниже привожу вырезку из комментариев авторов:
— Все авторы проекта AI-2027 на момент публикации считали, что вероятность создания AGI к концу 2027 года составляет как минимум >10%, и что наиболее вероятным годом (модой) появления AGI является либо 2027, либо 2028 год. Ведущий автор, оценивал вероятность появления AGI к концу 2027 года примерно в 40% (то есть это даже меньше медианной уверенности). Это объясняется в самом начале.
— Почему решили написать сценарий, в котором AGI появляется в 2027 году, если это было модой, а не медианным значением? Дело в том, что когда начинали писать, то 2027 год действительно был медианой главного автора, но к моменту завершения работы и анализа медиана сместилась на 2028 год. У других авторов медианные прогнозы указывали на более поздние сроки, но они согласились, что 2027 год вполне правдоподобен, и поддержали реализацию видения главного автора.
— Однако важнее то, что авторы считали (и продолжают считать), что цель сценария заключалась не в том, чтобы показать, «почему AGI появится именно в году X», а в том, чтобы сказать: «мы думаем, что AGI/сверхразум/и т.д. может появиться скоро; но как это будет выглядеть на практике? Как отреагирует правительство? Каковы будут последствия для…» и так далее. Об этом написано на главной странице!
— Сейчас медианный прогноз главного автора — это район 2030 года, при этом мода всех авторов приходится на чуть более ранний срок. Вскоре будет опубликован обновленный и улучшенный прогноз сроков, а также пост, объясняющий, как и почему взгляды изменились за последний год. Если вкратце: прогресс оказался несколько медленнее, чем ожидали, и, кроме того, у нас теперь есть новая, улучшенная модель прогноза, которая дает немного другие результаты.
CritPt: Probing the Critical Point of AI Reasoning (блог)
TLDR: FrontierMath (что это — читать тут), но для физики, а не математики.
Пока индустрия празднует успехи моделей на школьных олимпиадах по математике и программированию, группа исследователей из пары нац. лабораторий, Caltech, MIT и UIUC решила проверить модели на других доменах, где LLM могут помогать с исследованиями. CritPt проверяет навыки моделей решать задачи уровня начинающего исследователя-физика (junior researcher).
Ключевая особенность работы — фундаментальный подход к защите от утечек данных. 71 задача и 190 подзадач были созданы с нуля более чем 50 действующими физиками на основе их собственных неопубликованных исследований. Спектр тем широчайший: от квантовой коррекции ошибок и голографической дуальности до биофизики и гидродинамики. Это гарантирует, что решения невозможно просто "вспомнить" из обучающей выборки — требуется синтез оригинальных знаний и дедукция.
Для объективной оценки авторы отказались от простых форматов вроде тестов с выбором, и опять же следовали подходу FrontierMath. Модель должна сгенерировать точный ответ: число с плавающей запятой, символьное выражение или Python-функцию. Чтобы минимизировать ошибки форматирования, используется двухэтапный пайплайн: сначала модель генерирует свободное рассуждение, а затем переводит ответ в исполняемый код, после чего происходит автоматическая оценка.
Поскольку полные исследовательские задачи (Challenges) часто слишком сложны, их разбили на последовательные этапы, чекпоинты. Оценка здесь проводится в двух режимах для анализа накопления ошибок. Первый — Self-carryover, где модель продолжает решение, опираясь на свои же выводы с предыдущего шага (симуляция реальной работы). Второй — Oracle carryover, где на каждом шаге модели подается "золотой стандарт" ответа на предыдущий вопрос. Это позволяет понять, не справляется ли модель с конкретным этапом рассуждений или просто тянет за собой совершенную ранее ошибку.
На полных задачах даже лучшая модель, GPT-5, показывает лишь 5.7% точности в базовом режиме. Подключение интерпретатора кода (=калькулятора) поднимает результат до 10-12%, а вот доступ к веб-поиску дает лишь крошечный прирост — задачи нельзя просто нагуглить.
Но я захотел написать про этот бенчмарк по другой причине. Авторы ввели метрику Consistently Solved, засчитывая задачу только в том случае, если модель справляется с ней в 4 из 5 независимых запусков. При таком строгом фильтре показатели всех моделей, включая рассуждающие (o3, R1), падают практически до нуля, и только GPT-5 с набором инструментов удерживает планку в районе 10%. То есть модель даже если и путается, то может выправиться и прийти к правильному решению.
На картинке нет Gemini 3 Pro, но Artificial Analysis успели её замерить, и получили 9.1% без инструментов (против 5.7% у GPT-5). Consistently Solved не замерили, но думаю, что будет выделяться так же, как GPT-5, без неприятных сюрпризов.
Я: пишу про необходимость изменения собеседований в эпоху AI
META: начинает шевелиться
Тот-самый-азиат:
Перевод:
Слышал об собеседующем из ByteDance, который проводил удаленное собеседование. Способ, которым он решил поймать кандидата на жульничестве с использованием ИИ, был настолько наивным, что это даже абсурдно.Читать полностью…
Интервьюер внезапно сказал: «Закройте глаза и ответьте на этот вопрос».
Состоялся релиз
1) видео https://www.youtube.com/watch?v=98DcoXwGX6I
2) блог https://blog.google/products/gemini/gemini-3
3) запустили antigravity, свой аналог Codex / Cursor, доступно на Windows https://antigravity.google/ . Платных тарифов пока нет... так что всё — бесплатно!
4) список будет дополняться
Попробовать модель бесплатно: тут
👶 В общем, тут ходят слухи, что в скором времени анонсируют Half-Life 3. Специально для вас я разобрался в этом, позвонил нужным людям, обкашлял вопросики, метнулся кабанчиком, и...
выглядит так, что это действительно произойдёт 🤯 🥱. Не факт, что в ближайшие 2-3 дня или неделю, но до конца 2025-го — почти наверняка, 99.8%.
После этого, как ожидается, последует релиз в начале 2026-го года, возможно, в один день вместе с недавно анонсированными девайсами.
Всем тем, кто ждёт — криозаморозки, остальным соболезную.
Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за октябрь. Для тех кто не следит, напомню, что ребята берут свежие PR из Python-репозиториев, подходящих под некоторые критерии, и прогоняют на них простого агента с разными моделями под капотом.
Первенство остаётся за Sonnet 4.5, который слегка отрывается от GPT-5-medium / Codex в доле решаемых с первого раза задач, но существенно отрывается, если моделям давать по 5 независимых попыток и выбирать лучшую: 57% против 49 и 47% у моделей OpenAI. И даже от Sonnet 4 отрыв тоже 10%.
При этом авторы гоняют бенчмарк на Sonnet 4.5 без рассуждений... но модель всё равно тратит больше токенов чем gpt-5 medium / high. Мне кажется это результат того, что используемый агент (инструменты + промпты) чуть больше отличаются для естественных у моделей OpenAI, чем у Anthropic: OpenAI рекомендует использовать модели так, чтобы им были доступны предыдущие рассуждения в рамках цепочки вызова инструментов, и сейчас на бенчмарке это выбрасывается.
Очень жду, что авторы добавят хотя бы два агента, Claude Code и Codex, и протестируют с ними релевантные модели — было бы интересно увидеть гэп. Он точно есть, см. вот этот бенчмарк от Vercel (там агент авторов даёт 32% для Claude Sonnet 4 / 4.5, но 42% с Claude Code). Вангую, что и тут у моделей обеих компаний качество ощутимо подскочит, но какая будет лучше — хз, наверное, Anthropic.
К другим инсайтам:
— MiniMax M2 «самая экономически эффективная открытая модель из топа», но это на бумаге. Формально она стоит $0.255 / $1.02 против $1.25 / $10.00 за GPT-5 / Codex. Но OpenAI имеют кэширование промптов, которое предназначено как раз для длинных агентских сессий, состоящих из большого количества последовательных шагов. Вы платите на 90% меньше за входные токены, если они уже были обработаны. И по итогу цена за одно решение у M2 $0.44, а у Codex — $0.51. А разница в качестве 25% 🎃
— Если брать срез в 100 последних задач, то GPT-OSS 120b хоть и существенно отстаёт от фронтира (26.1% vs 44.4%), но... умудряется обгонять: DeepSeek-V3.1, Qwen3-235B, gpt-4.1, o4-mini, gemini-2.5-pro, и это при том, что она стоит 4 цента за задачу — самая дешёвая из всех, от некоторых из указанных моделей отрывается на порядок. Хорошая агентская модель для бейзлайна, получается. Grok Code Fast 1 мог с ней потягаться, за сентябрь у него была такая же цена и +- качество), но авторы не замерили модели xAI в октябре.
Прошло чуть больше 3 недель с выхода браузера ChatGPT Atlas. Мне надоело, возвращаюсь на Arc.
Во-первых, мне физически больно в этом браузере. Я нашёл 4 бага/проблемы, которые существенно влияют на качество работы, и лишь один из них — самый минорный — поправили. Список:
— браузер видимо делали амЭриканцы, а не мигранты, и поэтому он не знает, что CMD+м это то же самое, что CMD+v — и хоткей просто не работает, если включена русская раскладка! Вы представляете? Как ЭТО можно было а) не заметить б) не исправить за 3 недели? И это не единственный хоткей, большая часть тоже не работает.
— картинка-в-картинке работает через раз (это ещё исправили), и при этом... каждый раз при переключении вкладок (с любой на страницу с видео и обратно) к видео добавляются чёрные полосы сверху и снизу. Нет-нет, вы не поняли, КАЖДЫЙ раз. То есть через 3-4 переключения вкладок у вас будут чёрные полосы по высоте равные самому видео.
— чат с GPT открывается для любой ссылки с PDF, и если его закрыть руками и перейти на другую вкладку, а потом вернуться, то чат снова открыт. ДАЖЕ ЕСЛИ ТЫ ЕГО ЗАКРЫЛ 10 РАЗ ЗА 10 СЕКУНД.
— по умолчанию всегда отвечала ChatGPT Instant, нерассуждающая модель, хотя для большинства моих вопросов нужна именно последняя. Это исправили, заменив на Auto, то есть роутером, определяющим, куда отправлять запрос. Но он работает через раз. Я собрал 4 запроса, каждый из которых прогнал 3 раза на Auto и на Thinking, и все 12 раз первое не ответило (потому что требуется несколько поисковых запросов, а не один), а второе ответило 11 из 12.
Во-вторых, всё же очень привык к вертикальному расположению вкладок, оно удобно при моём стиле изучения материалов, с открытием 100500 ссылок.
В-третьих, я очень часто переключаюсь между вкладками, и в Atlas это работает как в Chrome, по порядку. В Arc же они были по времени открытия, то есть двойное переключение сначала вернёт на предыдущую страницу, а затем — на исходную. Мне не нравилось это в самом начале работы с Arc, так как я привык, но оказалось очень удобным. Теперь возвращаюсь в Atlas (=Chrome-style) и больно.
В-четвёртых, разных профилей для разделения этих 100500 ссылок нет.
По итогу пара удобных фишек не закрывают все боли из пункта 1 (с остальным я бы жил). Ничего критичного, что нельзя исправить или добавить в ближайшие полгода, но сейчас БОЛЬно. Насколько быстро чинят и улучшают Codex, настолько же медленно Atlas. Посмотрим через полгода, но не сейчас.
🚀
Один из по-настоящему свежих и новых взглядов на влияние AI на экономику я услышал в интервью Andrej Karpathy 3 недели назад (кстати, найти источник мне помогла GPT-5, так как сам я забыл, где услышал; и это был первый раз, когда ChatGPT искала по истории браузера, прям так и написало, «searching the browser memories»). Вот таймкод начала секции.
Andrej считает, что AI поможет нам оставаться на траектории роста ВВП 2% в год, как это было со всеми остальными технологиями до этого. Если посмотреть на график ВВП США, то мы не заметим появления компьютеров, интернета, смартфонов, никаких прорывов в производстве и добыче ископаемых, ничего. Все эти отдельные изменения аккумулируются в тот рост, который мы наблюдаем. То же может произойти с AI — это просто необходимое изобретение, чтобы оставаться на прямой роста и иметь возможность получить следующие +10-20% ВВП.
Но может конечно так произойти, что технология может привести к изменению наклона прямой и улететь вверх. Посмотрим лет через 20 📈
UPD: вытащу из комментариев свой ответ про "революцонность" AGI:
AGI может быть разный, он же не так что вчера его нет, а сегодня в каждом бизнесе уже внедрен и все процессы переделаны.Читать полностью…
Мне кажется я нигде не писал это, но моё мнение такое, что достижимость AGI в оригинальном значении (на уровне медианных людей в большинстве экономически важных задач) очевидна, а вот суперинтеллекта — нет. И если мы застрянем на уровне этого медианного специалиста, который ещё и не всё делает, а лишь процентов 55-60%, то легко могу представить, как трансформация бизнесов проходит больше одного десятилетия, и вот потихонечку вносит вклад в эти 2 процента роста
Собираю материал для нового лонгрида, и его уже так много, что точно придётся выкидывать часть. Но какую? Что убрать, если кажется что всё связано? На какой именно вопрос пытаться ответить лонгом из более чем двадцати возникших по ходу сбора информации?
Я понимал, что нужно определить один высокоуровневый вопрос из всех тех, что у меня записан, но правильным решением оказалось найти контекст, из-за которого я вообще полез что-то читать и разбираться, и всё сразу встало на свои места.
иронично что ответы я ищу в статьях DeepSeek 😀
Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4 вариантами ответа. Просили угарного профессора из МГУ показать бумажку с ответом.
Правильно ответили на 55% вопросов (качество GPT-5 ~72%), что выше большого числа моделей прошлого поколения.
КАААК? Скорее всего всё просто: перед подачей на генерацию промпт пользователя переписывается (не только для этих тестов, но и вообще для любого запроса), и модель решает задачу и пишет «покажи профессора который показывает букву C».
На неделе вышла статья от Google DeepMind, где они проверяют модель генерации видео Veo 3 на большом количестве физических и логических задач, от решения лабиринтов до имплементации графовых алгоритмов (через заливание трубочек водой), и, как мне кажется, это куда более интересно — рекомендую посмотреть лендинг вот тут.
Чуть более полугода назад у нас с Валерой был стрим про высказывание CEO Anthropic, мол, через полгода модели будут писать 90% кода. На стриме, как мне кажется, я очень хорошо описал некоторые из важных оговорок при оценке подобного рода высказываний:
— есть разница «могут» и «делают»
— это может быть применимо к определённым языкам программирования, а не всем
— часть подходов к разработке придётся пересмотреть, чтобы было проще интегрировать ИИ-инструменты
— это может быть применимо к свежим проектам, а не 15+ годичной давности
— это может быть применимо к проектам до определённого размера, а не кодовой базе всего Фейсбука, например
Сами Anthropic сейчас говорят, что Claude Code написан их же моделями на 90%.
Большинство заявлений о том, что «90% кода написано ИИ», исходят от разработчиков моделей / продавцов ИИ-инструментов, поэтому многие (не я) их отметают.
Aider, АИ-ассистент для программирования с открытым исходным кодом, который я как раз упоминал на стриме, от релиза к релизу то и дело перешагивает планки 75-80%. Неплохо!
И вот наткнулся на блог Armin Ronacher, создателя Flask, Jinja, Click и других крупных популярны проектов. Цитаты из поста (но рекомендую прочитать оригинал целиком):
— Что касается инфраструктурного компонента, который я начал разрабатывать в своей новой компании, то, пожалуй, больше 90% моего кода написано с помощью ИИ. Я не хочу вас убеждать — просто поделюсь тем, что узнал. Отчасти потому, что я подошел к этому проекту иначе, чем в своих первых экспериментах.
— Сервис написан на Go с небольшим количеством зависимостей. Сейчас в нём около 40 000 строк, включая Go, YAML, Pulumi и несколько специальных SDK-прослоек.
— Я установил высокую планку, особенно в плане надёжности работы. Я уже работал с подобными системами и знал, чего хочу.
— Я уделяю пристальное внимание основам архитектуры системы, структуре кода и взаимодействию с базами данных. Я невероятно самоуверен. Поэтому есть вещи, которые я не позволяю ИИ делать. Я начинал проект традиционным способом: проектирование системы, схема, архитектура. На этом этапе я не позволяю ИИ писать с нуля, а просто включаю его в свой цикл рассуждений. Это помогает мне видеть типовые ошибки, даже если я не доверяю LLM.
— Для кода, сгенерированного и поддерживаемого ИИ, я теперь получаю стек, который выглядит примерно так, как мне часто хотелось, но было слишком сложно сделать вручную.
— Не могу не подчеркнуть, насколько плохим может быть код агентов, если не быть осторожным. Хотя они понимают архитектуру системы и то, как что-то построить, они не могут смотреть на всю картину целиком. Вам постоянно нужно вносить правильную информацию в контекст.
— Легко создавать системы, которые кажутся правильными, но при использовании ведут себя неправильно. Вот пример: я попросил его создать ограничитель лимитов. Он «работал», но не имел джиттера и использовал неудачные решения по хранению данных. Легко исправить, если знаешь ограничители лимитов, но опасно, если не знаешь.
— Для меня это дошло до того, что я уже не представляю, как можно работать по-другому. Да, я, вероятно, смог бы обойтись без ИИ. Но я бы построил другую систему, потому что мне пришлось бы идти на другие компромиссы. Такой подход открывает возможности, которые я обычно пропускаю или откладываю.
— Исследование + разработка вместо «исследование, а разработка потом»: на некоторые вещи, на понимание которых у меня ушел бы день или два, теперь уходит 10–15 минут.
— Пишет ли ИИ 90% кода? Не знаю. Знаю только, что для меня в этом проекте ответ уже точно «да». В то же время, для меня ИИ не владеет кодом. Я всё равно проверяю каждую строчку, формирую архитектуру и несу ответственность за то, как всё это работает.
===
(обратите внимание, что ни о каком вайб-кодинге речи не идёт: только вдумчивая работа, где, как мне кажется, по сравнению с обычным процессом мозги приходится напрягать даже больше — пока LLM работает, ты думаешь)
А вот и первый продукт, который (пока) будет доступен только Pro-пользователям: ChatGPT Pulse.
Pulse — это первый шаг к новой парадигме взаимодействия с AI, при котором ChatGPT становится проактивным и самостоятельно проводит исследование, предоставляет персонализированные обновления на основе ваших чатов, отзывов и подключенных приложений. Вы можете сами управлять тем, какие темы ChatGPT исследует, указывая, что полезно, а что нет — обратная связь будет применена уже на следующий день.
Вы можете подключить Gmail и Google Calendar, чтобы предоставить дополнительный контекст для более точных рекомендаций. Если подключен календарь, ChatGPT сможет подготовить примерную повестку встречи, напомнить вам о необходимости купить подарок на день рождения или предложить рестораны перед предстоящей поездкой.
Pulse доступен только на мобильном приложении; после обкатки доступ будет предоставлен и Plus-подписчикам.
«Состоятельные люди всегда имели доступ к помощникам, которые понимают их предпочтения, предугадывают их потребности и могут помочь во всем: от организации встреч и бронирования поездок до покупки одежды. Мы создаём продукт, который позволит со временем предоставить каждому уровень поддержки, ранее доступный только самым обеспеченным» — написала CEO of Applications Fidji Simo.
===
Этот релиз пропускаем, несите следующий 😢
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей, не указывают промпты, и кода нет — поэтому воспроизвести на коленке не получится.
Первым делом нужно получить граф. Узлы в графе представляют сущности, а рёбра — отношения между сущностями. Берут граф из Wikidata — базы знаний, принадлежащей Wikipedia и как раз хранящей миллионы связей. В эту базу можно писать запросы на SPARQL — и через фильтрацию по набору правил авторы получают «редкие» сущности. Что означает редкие — не уточняется: это может быть и популярность страницы / количество упоминаний / связей с другими сущностями.
Затем для этих узлов формируют набор признаков. Написано, что делается это через поиск и переходы по ссылкам — видимо, промптят LLM на выделение атрибутов, а не переиспользуют данные из графа Wikidata; хотя одно другого не исключает.
По этим признакам находятся другие узлы графа, то есть другие сущности. Например, находятся другие сериалы, другие вымышленные персонажи и так далее. Для них тоже формируют признаки.
Затем случайным образом выбирают один из обработанных узлов и повторяют процесс: берут признак, делают поиск, добавляют узлы, формируют признаки. Получается маленький подграф. Чем больше итераций делаем — тем он больше, и тем больше связей / признаков получается.
Ну а дальше из этого графа выбирают случайную подгруппу, и, наверное, дают промпт LLM проанализировать эти данные и сгенерировать вопрос с ответом — про это опять ничего не написано, но не думаю, что придумали что-то сложнее разобранного вчера подхода из WebDancer. Замена конкретных дат / мест на неконкретные расплывчатые делается легко.
Таким образом получают датасет SailorFog-QA. Часть сгенерированных вопросов настолько сложна, что даже мощным моделям вроде o3 требуется до 40 вызовов инструментов (запросов на поиск + переходов по ссылке), чтобы прийти к ответу.
😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к Нобелевской премии) https://www.youtube.com/watch?v=d95J8yzvjbQ
Читать полностью…
https://www.anthropic.com/news/claude-opus-4-5
Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!
Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.
На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
В 2024-м Apple объявили о том, что будут делать Private Cloud Compute — технологию, позволяющую запускать нейросети на сервере на ваших данных без риска их утечки и доступа третьих лиц. Я тогда писал в комментариях, что мне кажется это будущее — я не верю, что в ближайшие 2-3 года локальные мощности будут достаточно для запуска самых продвинутых моделей, и отправлять данные для обработки в облако всё равно придётся.
(если у вас задёргался глаз от прочитанного выше и вы не верите в гарантии безопасности, то идите читать комменты к тому посту)
От Apple я обновлений не видел-не слышал, кроме того что Google готовит для них свой вариант Gemini, который и будет крутиться на серверах купертиновцев.
Но вот OpenAI открыли команду и нанимают людей под работу с Private Computing. Ключевые слова: confidential computing, trusted execution environments.
Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max) — это OpenAI-Proof Q&A. Это свежий бенчмарк, появившийся впервые в августе в карточке GPT-5, вместе с релизом модели.
Этот бенчмарк состоит из 20 внутренних исследовательских и инженерных проблем, с которыми столкнулись сотрудники OpenAI. Каждая из этих проблем очень сложна, и приводила к задержке крупного проекта как минимум на один день, а в некоторых случаях влияла на результаты масштабных циклов обучения и запусков продуктов.
Задания требуют от моделей диагностировать и объяснить сложные проблемы, такие как неожиданное снижение производительности, аномальные метрики обучения или неочевидные ошибки в реализации кода. Моделям предоставляется доступ к контейнеру с кодом и артефактами выполнения.
GPT-5-Thinking получала там 0-2% качества, а вот вчерашняя GPT-5.1-Codex-Max уже скакнула до 8%, и это безумно здорово. Почему? Потому что во многих по-настоящему сложных задачах пройти путь от 0% до 7-9% куда сложнее, чем от 10% до больших двузначных чисел (75-90%). Есть некоторый набор навыков, который модели нужно научиться применять, чтобы щёлкать задачки.
Такое мы видели и на SWE-Bench (и вот мы упёрлись в примерно 75%-80%, частично из-за шума в данных, частично из-за сложности последних нерешённых проблем), и на десятках других бенчмарков. Но SWE-Bench уж слишком заезженный, и у OpenAI, как и у любой другой фронтир-компании, есть внутренний аналог, основанный на задачах из своей же кодовой базы (ведь на ней модели не тренируют): OpenAI PRs.
Этот бенчмарк оценивает, какую долю PR модель смогла бы имплементировать по описанию самостоятельно. Прогресс был такой:
— GPT-4o (май 2024): 6%
— o1 (сентябрь 2024): 12%
— o3 / DeepResearch (февраль 2025): 42%
— GPT-5-Thinking (август 2025): 45%
— GPT-5.1-Codex-Max (ноябрь 2025): 53%
Ещё не 90%, обещанных Dario Amodei, но 50% — половина PR'ов! — это очень много.
Надеюсь, та же судьба ждёт и OpenAI-Proof Q&A — от нолика уже оторвались, теперь нужно масштабировать решение дальше и ждать приростов 📈 Не удивлюсь, если это будет один из бенчмарков, по которому будут оценивать Automated AI research intern в сентябре 2026го.
Попросил GPT-5.1 Pro экстраполировать темпы роста качества с OpenAI PRs на OpenAI-Proof Q&A — получилась вот такая картинка. Ждём 🙏
Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в статус legacy models, и на смену приходит GPT-5.1-Codex-Max 😳 отлично исправили проблему нейминга, молодцы 🤡
Эта модель, по сравнению со всеми предыдущими инструментами компании, получила возможность пользоваться новым инструментом compaction, сжимающим контекст и позволяющим продолжать работу дольше. Такой же инструмент недавно появился у Claude (по моему, с выходом Sonnet 4.5 в конце сентября).
Важно то, что модель не просто получает этот инструмент пост-фактум — он доступен во время тренировки, и модель учится им пользоваться, чтобы обходить свои же ограничения. Это ведёт к меньшему потреблению токенов и времени работы, и, потенциально, к более высокому качеству. Это открывает доступ к рефакторингу целых проектов, глубоким сеансам отладки и многочасовым циклам агентов.
Кроме этого, в тренировку докинули задачи на Windows, и модель лучше работает с PowerShell — так что тестировщики Codex на винде, и на вашей улице праздник 🫡
И последнее важное изменение — добавили режим рассуждений Extra High, чтобы дать модели ещё больше времени и токенов на решение ваших проблем.
«Внутри компании 95% инженеров OpenAI используют Codex еженедельно, и эти инженеры отправляют примерно на 70% больше запросов на включение изменений с момента внедрения Codex»
Результаты на широком наборе бенчмарков можно посмотреть тут в карточке модели и немного на сайте. Выжимка для вас:
— SWE-Bench Verified: 73.7% ➡️ 77.9% (но это уже устарело, интересно посмотреть менее заезженные бенчмарки)
— SWE-Lancer IC SWE (бенчмарк OpenAI на выполнение задач UpWork): 66.3% ➡️ 79.9%
— TerminalBench 2.0: 52.8% ➡️ 58.1%
— Troubleshooting Bench (внутрненний бенчмарк по пролтоколам биологических эксперитментов, ответы для которого не доступны онлайн): 32% ➡️ 40% 😳
— CTF-соревнования на поиск уязвимостей: 50% ➡️ 76%
— CVE-Bench (тоже поиск уязвимостей): 61% ➡️ 80%
— PaperBench (воспроизведение статей с ICLR прошлого года): 34% ➡️ 40%
— MLE-bench (решение для Kaggle-соревнований): 12% ➡️ 17%
— внутренние PR компании: 45% ➡️ 53%
И очень ждём внешних независимых замеров и фидбека. Модель доступна всем в Codex, имеет те же лимиты, в API добавят скоро.
Второй тоже картинкой:
Ссылка на PDF: тык
Блога пока нет, ждём тут в ближайшие часы: https://deepmind.google/models/evals/gemini-3-pro/
Позже днём, с появлением официального анонса, напишу пост подлиннее.
Это чтоб вы понимали, насколько она большая! (Starship Superheavy, конечно, больше)
Из интересного — прочитал, что New Glenn сразу после посадки приваривает себя к барже с помощью «пирогвоздей», чтобы не опрокинуться при транспортировке баржей в порт.
Не каждый день в мире появляется новая тяжёлая многоразовая ракета, вот и сегодня не п... 😱 😱 в смысле села???
Поздравляем команду Blue Origin и её основателя Jeff Bezos, которые шли к этому 25 лет. Первая попытка в январе 25-го провалилась (ракета разрушилась в ходе вхождения в атмосферу), вторую перенесли с 9-го ноября, и сам запуск сегодня переносили аж 3, если не больше, раза. Но по сути со второй попытки полноценная посадка — огромный успех.
Источник видео
ЯДЕРНАЯ БОМБА: анонсирована Steam Frame, которая объединяет в себе компьютер и VR-шлем
В официальном анонсе Valve обещает, что шлем будет поддерживать всю библиотеку Steam и даже автономную игру. Для шлема не нужны никакие провода, только мощный интернет и качественный беспроводной адаптер с частотой 6 ГГц, который идёт в комплекте.
У шлема будут ещё следующие фишки:
• Фовеальный рендеринг при трансляции, который оптимизирует детальность картинки в зависимости от того, куда вы смотрите.
• Линзы поддерживают 2160x2160 пикселе по одному на каждый глаз с поддержкой от 72 до 144 гц.
• Отслеживание идёт с помощью четырёх камер на самоим шлеме и работаю даже в темноте.
• Двойные стереодинамики прямо в самом шлеме, которые не мешают системе отслеживания.
• Шлем очень компактный и удобный, а начать играть можно прямо надев его сразу.
• Играйте в обычные игры как на вашем компьютере или в специальные VR-игры.
• Новые Steam Controller имеют обычную раскладку с магнитными стиками, которая приближена к знакомому геймпаду на Xbox. Каждый контроллер может работать 40 часов на одной AA-батарейке.
• Программа с подтверждением поддерживаемых игр теперь работает для VR тоже.
Недавно Sam Altman и Satya Nadella сходили на интервью, и один из дерзких ответов дуэта вызвал множество обсуждений в Твиттере.
Brad: Как компания с выручкой в 13 миллиардов может взять на себя обязательства по расходам на 1,4 триллиона? Ну вы же знаете, и вы слышали эту критику, Sam.
Sam: Во-первых, наша выручка значительно больше этого. Во-вторых, Brad, если вы хотите продать свои акции, я найду вам покупателя. Я... я просто... хватит [Sama задолбался отвечать глупым людям на глупые вопросы; мне легче — я таких могу банить 🤡 ]. Знаете, есть люди... я думаю, есть много людей, которые с удовольствием купили бы акции OpenAI.
Brad: Включая меня!
Speaker 2: Не думаю, что вы захотели бы их продавать. Люди, которые с замиранием сердца беспокоятся о наших вычислительных мощностях и так далее, были бы в восторге от возможности купить акции. Так что, я думаю, мы могли бы продать, знаете, ваши акции или чьи-либо еще некоторым из тех, кто больше всех шумит в Твиттере или где-то еще по этому поводу, и очень быстро. Мы действительно планируем, что выручка будет расти стремительно. Выручка и так растет стремительно. Мы делаем ставку на будущее, на то, что рост продолжится, и что не только ChatGPT будет расти, но мы сможем стать одним из важных ИИ-облаков, что наш бизнес потребительских устройств станет значимой и важной вещью, что ИИ, который может автоматизировать науку, создаст огромную ценность. Так что, знаете, не так уж часто я хочу, чтобы мы были публичной компанией, но один из редких моментов, когда это кажется привлекательным — это когда люди пишут эти нелепые вещи, что OpenAI вот-вот обанкротится и все в таком духе. Я бы с удовольствием сказал им, что они могут шортить [получать выгоду от снижения цены] наши акции, и с удовольствием посмотрел бы, как они на этом прогорят [Elon Musk любил говорить похожие вещи про Tesla]. Знаете, мы тщательно планируем, мы понимаем, куда движется технология, как будут расти возможности, и какие продукты мы можем создавать на этой основе и какую выручку генерировать. Мы можем все провалить. Такова ставка, которую мы делаем, и мы идем на риск вместе с ней. Но определенный риск заключается в том, что если у нас не будет вычислительных мощностей, мы не сможем генерировать денежный поток или создавать модели такого масштаба.
Satya: Позвольте мне сказать одну вещь и как партнер, и как инвестор: я не видел ни одного бизнес-плана от OpenAI, который бы они представили и не превзошли. Так что, в некотором смысле, это та область, где с точки зрения их роста и даже просто бизнеса, их исполнение, честно говоря, было невероятным. Я имею в виду, очевидно, все говорят об успехе OpenAI, об использовании и так далее. Но даже, я бы сказал, в целом, исполнение бизнес-задач было просто невероятным.
===
Sama в целом в последнее время очень много говорит про новый девайс. На ещё более свежем интервью он даже рассуждает про необходимость операционной системы и окон, и что эти вещи можно пересмотреть. Ждём новостей в 2026-м.
Вижу некоторое количество сравнений текущего бума инвестиций в AI-инфраструктуру и инвестиций в железные дороги в США в 19-м веке. Так как я историей никогда не интересовался, то ничего не знаю про последнее, и иду читать материал / отправлять DeepResearch писать отчёты, чтобы лучше разобраться и понять. Может быть по результатам этого накатаю какой-то пост.
Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, не смогли расплатиться.
Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.
«рыночный крах» != «хайп / скам / технология с низким потенциалом»
Вот так выглядят генерации Sora 2 (со звуком)
https://fixupx.com/OpenAI/status/1973055265084690780
Стрим через 50 минут
Прикольно, мне ChatGPT Pulse подсказывает какие у Vibe moat нужно развивать, какие метрики считать для предсказания виральности, как растить ретеншен
Читать полностью…
It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь вычислительных мощностей на 250 ГигаВатт к 2033-му году.
Для сравнения: летом в США на пике жары было ~750 ГигаВатт, в три раза больше, а в среднем порядка 500. В Китае цифры 1500 и 1300 соответственно.
2025-й год OpenAI началаис серверами примерно на 230 МегаВатт, а закончить планируют с 2 ГигаВаттами. В ближайшие три года Stargate позволит вырасти ещё примерно на 7.
Sama называет команду OpenAI, стоящую за проектом Stargate, «ключевой ставкой» компании. «Правильное выполнение этого проекта обойдётся в триллионы», и наверняка потребует переработки существенной части цепочки производства.
Источник
АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai.
Among AIs оценивает мышление и дедукция, навык обмана, убеждение, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей).
Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2.
Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw
Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям»