73508
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.
То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.
На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.
DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!
Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).
В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников. Мне кажется это важным потому, что позволяет компании закрепить у себя пользователя и сделать опыт перехода к конкурентам неудобным, мол, «да у них модель тупая и меня не понимает».
Новая память работает на основе «Dreaming» (сноведений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.
Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.
Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.
Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».
Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.
Знакомый скинул рассказ «They're Made Out of Weights», переделку старого «They're Made out of Meat», про котроый я... никогда не слышал.
Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.
===
О чем переделка про веса (в нейросетях) — можете догадаться сами 🧠
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.
Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.
Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.
Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.
UPD: никто не пострадал.
📸: NASASpaceFlight
Много финансовых новостей:
— OpenAI готовится подать приватную заявку для подготовки к IPO. Это не означает, что IPO будет прям совсем скоро, но подразумевает, что будет до конца года. Компания хочет опередить Anthropic, чтобы привлечь больше капитала
— SpaceXAI уже подали форму S-1 для IPO (один из последних шагов перед размещением, которое пройдет в июне), и в ней много интересных деталей
— из этой формы стало известно, что Anthropic платит SpaceXAI 1.25 миллиарда долларов в месяц за мощности Colossus 1 (и возможно немного Colossus 2 — прямо сегодня Tom Brown, помните такого?, написал, что Anthropic теперь и на новом кластере будет работать). Сделка до мая 2029-го, но компании могут её разорвать в любой момент, предупредив за 90 дней.
— Также в форме S-1 указан общий размер рынка, в который целится SpaceXAI, 28.5 триллионов долларов 😂 26.5 из них — это AI, что понятно, но удивлён, что на космос так мало 😭 а как же покорение Марса
— за 2025-й выручка $18.67B, но почти всё — запуски; X и xAI приносят мало.
— SpaceXAI довольны взаимодействием с Cursor (о сделке писали ранее), и планируют совершить покупку компании за 60 миллиардов долларов после IPO.
— Nvidia отчиталась за квартал и снова превзошла ожидания аналитиков и свои прошлые предсказания, но акции традиционно упали 😕 я не знаю почему
— и последнее: Anthropic планируют закрыть второй квартал (кончающийся в июне) с operating income — то есть выйти в плюс и заработать прибыль около $560M. Это связано с невероятным ростом спроса и выручки, которая превысит $10.9B за квартал (то есть ARR примерно $44B в год). Ранее компания планировала выйти в прибыль в 2028м. Как я писал ранее, они недооценивают спрос на мощности, поэтому не инвестировали в свои ДЦ так же много, как OpenAI, поэтому сейчас а) тратят меньше в долгосрок б) платят больше в краткосрок (та же сделка с SpaceXAI). Очевидно, что если бы они ожидали такого роста, то нашли бы, в какие сервера вкинуть ещё 600 миллионов долларов :) в мае и июне SpaceXAI расширит свой контракт с Anthropic на поставку мощностей «по сниженной ставке», поэтому деньги точно лежать не будут.
Karpathy теперь не безработный AI-учитель, а сотрудник Anthropic.
(на самом деле он пошел за бесплатными кредитами на Claude Code)
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.
Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏
Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.
Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.
На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте:
https://dsv4.interactive.ikot.blog
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
Один из интересных графиков в статье с анализом поведениям моделей авторами статей.
GPT думает гораздо больше перед тем, как начать писать какой-либо код.
(Однако это может быть артефактом и обосновано тем, что модель заканчивает раньше из-за плохой обёртки, поэтому процент по оси OX посчитан по гораздо меньшему количеству шагов)
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.
Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации. То есть агенту условно дают SQLite и говорят «вот сделай так же, те же интерфейсы, те же фичи». В первичном релизе — 200 программ из открытых репозиториев, от тех, про которые никто не слышал (<500 звезд на гитхабе) до того же SQLite, запущенного на каждом смартфоне.
Одна из самых интересных частей бенчмарка — это описание того, как его собирали и как проверяют выполнение задачи. Репозитории GitHub, подходящие под некоторые критерии, отдают LLM-агенту и промптят а) запустить инструкции по сборке (чтобы получить программу в точности соответствующую коду) б) сгенерировать возможные сценарии использования на основе кода + документации. Для этого агента запускают в цикле и не останавливают, пока процент покрытия кода тестами не будет высоким. Тесты также фильтруются (если их проходит и пустое приложение) и переписываются (например, если их не проходит сама оригинальная программа).
Получается авторазметка кодинг-агентами.
Мединный проект из этих 200 содержит 8700 строк кода в 50 файлах, 770 тестов, 2100 звезд и был впервые опубликован 8 лет назад.
Основная метрика — доля проектов, которые агент может воспроизвести так, что проходит 100% тестов. Дополнительная метрика — то же самое, но с порогом в 95% тестов.
У агента есть 6 часов, 1000 шагов и неограниченное количество запросов к скомпилированной программе.
У авторов получилось, что на данный момент все модели набирают 0% по основной метрике, а Opus 4.7 лидирует по дополнительной с результатом в 3%.
«...учитывая контекст, я почти уверен, что адвокаты Илона Маска, возможно, сильно облажались» — не то, что я ожидаю прочитать в новостном материале по делу, В КОТОРОМ СУДИТСЯ САМЫЙ БОГАТЫЙ ЧЕЛОВЕК МИРА, КОТОРЫЙ МОЖЕТ НАНЯТЬ ЛЮБЫХ ЮРИСТОВ.
Самого Elon уже опросили как свидетеля (он признался, что xAI дистиллировала модели OpenAI 😂), а за ним вызвали Jared Birchall, финансового управляющего состоянием миллиардера.
TLDR:
— в феврале 2025-го Elon сделал ставку в $97.4 миллиарда долларов за НКО OpenAI. С его слов, он хотел задать рыночную цену, чтобы в ходе раздела акций с коммерческой OpenAI некоммерческая не была усечена. На эти цифры должны были смотреть главные прокуроры, одобрявшие процесс конвертации.
— один из юристов команды Elon Musk задал несколько вопросов по этому поводу
— ...что позволило юристам OpenAI начать спрашивать по этой же теме и выяснить: а как получили оценку? а кто готов был давать деньги? а почему так? а какое вообще вам дело до того что происходит? И так далее. Дело в том, что никаких документов в рамках дискавери не было предоставлено, так как считалось, что это вне рамок дела. Jared Birchall отвечал не очень — многое не помнит, многое не знает, что-то слышал от кого-то где-то там-то.
— тут уже в опрос вмешалась судья, которая выгнала жюри присяжных из зала (а почему не выгнали журналистов? это как?) и сама начала задавать вопросы, пытаясь разобраться, как же без всяких оценок пришли к цифре около ста миллиардов, а главное на основе чего собирали инвесторов, чтобы сделать ставку. Сто миллиардов сложно без какого-то обоснования собрать.
Новость кончается так:
«К сожалению, задав вопрос о сделке с xAI в самом конце прямого допроса, команда Маска, возможно, открыла дверь для дальнейшего расследования. Вы можете спросить: «открыла дверь для чего?», и ваше предположение будет таким же верным, как и мое. Дальнейшие дискавери документов? Возможно, что-то о антиконкурентном поведении? Могу сказать вам, что для Elon Musk это не сулит ничего хорошего»
Суд идёт дальше, но следующий раз жюри и допрос вернутся в понедельник.
Хорошо, что новый метод не даёт погрешность в 2 раза 😨
Читать полностью…
Через неделю начинается судебный процесс Musk v Altman, в ходе которого их обоих, а также многих директоров OpenAI и Microsoft, вызовут на трибуну для ответов под присягой.
Судебный процесс обещает стать одним из самых масштабных зрелищ противостояния двух сил, которые когда-либо порождала Кремниевая долина. Обе стороны — компании на триллион долларов, Elon вообще самый богатый человек в мире.
Это не первый и даже не второй иск от него в сторону OpenAI, но первый, который дошёл до слушания в зале суда. В понедельник компании будут выбирать присяжных (ChatGPT говорит, что этот процесс не затягивается, и заканчивают в тот же день или в худшем случае за 2-3), а потом пойдет замес.
Elon утверждает, что стартап нарушил данные ему обещания и по ряду пунктов нарушил свою благотворительную миссию. Он добивается возврата активов. Экономист с его стороны оценил долю в 109 миллиардов долларов 😂, в то время как OpenAI оценивалась в 500 миллиардов долларов. При последней оценке OpenAI эта доля может составить 187 миллиардов долларов (судья уже сказала, что экономист «взял цифры из воздуха»).
Напомню TLDR: OpenAI уже предлагали акции Elon'у ранее, и он отказался, а до этого, ещё до ухода, он предлагал сделать компанию коммерческой и объединить её с Tesla.
Юристы OpenAI наверняка будут ссылаться на это. Они также будут утверждать, что Маск слишком долго тянул с подачей иска, и срок давности истек.
Если жюри признает OpenAI виновной, Elon также просит судью отменить октябрьскую реструктуризацию OpenAI, в результате которой коммерческая часть некоммерческой организации была преобразована в корпорацию. Юристы, следящие за делом, заявили, что суд вряд ли вынесет подобное деструктивное постановление, так как сделка была одобрена двумя генеральными прокурорами.
Лично я думаю, что Elon иск проиграет — но в моё «проиграет» входит и исход, где OpenAI выплачивают какую-то очень маленькую сумму (условно те же 38 миллионов, которые Elon вложил) и больше ничего не меняется. То есть иск не будет удовлетворён в хоть сколь нибудь значимом объеме.
Elon уже сказал, что ему-то деньги не нужны, поэтому всю сумму должна будет получить некоммерческая часть новой OpenAI 👀
Будем следить за ситуацией, запасаемся попкорном 🍿
В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше?
С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.
С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.
Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).
Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.
Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?
У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.
Будем вести наблюдение и очень ждём публикации документов для IPO!
Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎
Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).
Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?
Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.
Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.
Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.
Прочитать побольше про механизм: 1 общий и 2 техническое описание
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).
За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.
В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.
Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.
Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
Anthropic выпустили пост-обновление про Mythos и Project Glasswing с промежуточными результатами.
Спустя месяц большинство партнеров обнаружили в своем коде сотни уязвимостей критического и высокого уровня опасности каждый. В общей сложности они выявили десятки тысяч уязвимостей. Некоторые из партнёров сообщили, что скорость обнаружения багов выросла более чем в десять раз. Например, компания Cloudflare нашла 2000 уязвимостей (400 из которых имеют высокий или критический уровень опасности) в своих критически важных системах, при этом доля ложных срабатываний, по мнению команды Cloudflare, оказалась ниже, чем у тестировщиков-людей.
Я видел много комментариев про то, что, мол, Mythos да может что-то находит, но наверняка выдаёт и много мусора, где уязвимостей нет — так вот это не так. Помимо закрытых проектов, Anthropic натравили Mythos и на опенсурс для сканирования более 1000 крупных репозиториев, на которых во многом держится современный интернет. На данный момент, по оценкам Anthropic, в этих проектах найдено 6202 уязвимости высокого или критического уровня (из 23 тысяч в общей сложности, включая те, которые относятся к среднему или низкому уровню опасности).
На данный момент лишь 1752 из этих уязвимостей с высоким и критическим уровнем прошли тщательную проверку силами одной из шести независимых исследовательских компаний в сфере кибербезопасности. Из них 90% оказались подтвержденными, а 62% (1100 штук) были классифицированы именно как уязвимости высокого или критического уровня.
Некоторые из уязвимостей носили очень серьёзный уровень угрозы, если бы они были обнаружены злоумышленниками. Как пример, Mythos смо написать эксплойт, который позволил бы злоумышленнику подделывать сертификаты через библиотеку wolfSSL. Это, к примеру, дало бы ему возможность разместить фальшивый сайт банка или почтового провайдера, и для конечного пользователя такой сайт выглядел бы абсолютно легитимным, браузер не показал бы никаких уведомлений.
Обнаруженные уязвимости льются как из рога изобилия, их не успевают исправлять, не хватает людей. Некоторые команды/проекты даже просили снизить темпы раскрытия информации об уязвимостях, поскольку им требуется больше времени на создание патчей. (В среднем, на устранение бага высокого или критического уровня, найденного с помощью Mythos Preview, уходит две недели).
В настоящее время ни одна компания — включая Anthropic — не разработала достаточно надежных механизмов защиты, способных предотвратить использование подобных ИИ-моделей во зло и для причинения потенциально серьезного ущерба. Именно поэтому к модели не дают доступ широкой аудитории. Но по этой же причине и был запущен Project Glasswing: если модель с аналогичными возможностями будет выпущена кем-то без соответствующих мер, то в скором времени для любого человека в мире станет значительно дешевле и проще эксплуатировать уязвимый код.
Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.
К сожалению, не могу найти, какой % от компании, но очень интересно, сколько фаундеров примут предложение — токены они получают сейчас, а акции ещё когда что-то стоить начнут? Не скоро.
Интересно, как изменится относительная популярность Claude Code в ближайшее время 😏
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набор инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.
Изначально Bun был написан на языке программирования Zig, и это стреляло авторам в колено, некоторые вещи, связанные с утечками памяти и неэффективностями, было очень долго и сложно отлаживать.
Сегодня в основную версию Bun вмерджили полную реимплементацию на Rust, другом очень быстром языке, но с большим фокусом на безопасность памяти (как раз чтобы не было утечек).
PR с добавлением Rust — на миллион строк кода. И как вы догадываетесь переписывали эти строки не руками, а Claude Code в цикле.
«Он проходит существующий набор тестов Bun на всех платформах (и исправляет несколько утечек памяти и нестабильных тестов), размер бинарного файла уменьшается на 3–8 МБ, результаты бенчмарков находятся в диапазоне от нейтральных до более позитивных — и, что наиболее важно, теперь у нас есть инструменты, поддерживаемые компилятором, для обнаружения и предотвращения ошибок, связанных с памятью».
3 дня назад основной разработчик писал, что агентов запустили в цикл 6 дней назад, и с тех пор они непрерывно работали. Так что всё переписывание уложилось в 10 дней.
Ждём блогпост с деталями и объяснениями, сколько это стоило, как работало — там точно было не просто: «Claude, перепиши Bun на Rust. Не допускай ошибок».
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).
По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).
Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.
Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.
🥊 битва за рыночек
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки).
Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк.
Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки 👨🦳. Для проверки используют GPT-5.5, пока не уточнили как — просят ли искать ошибки в оригинальных решениях или как-то ещё. Ждём исправленной версии, может быть оценки моделей чуть подскочат.
Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное.
Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений.
На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):
МАСК — ВСЁ!
Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
Как? Они заключили партнёрство со SpaceX на предоставление мощностей датацентра Colossus.
Как вы понимаете, это означается, что Elon расписался в некомпетентности своей команды.
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше.
Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6.
Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё.
Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost soled, где порог пройденных тестов 95%, а не 100%).
На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом.
На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%.
Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати 👀)
Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в отношении разных моделей.
Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива.
Каждый день пайплайн:
1. получает 200 самых популярных постов за 24 часа на Hacker News
2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50)
3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент.
На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.
У Dwarkesh новое видео, на этот раз не интервью, а вопросно-ответная лекция с одним из создателей TPU, делающим сейчас свой стартап.
https://youtu.be/xmkSf5IS-zw
Анки-карточки к лекции: https://reiner-flashcards.vercel.app/
В лекции поговорят про то, как прикидывать цену токенов моделей, как и почему возникает трейдофф скорости и цены (вот эти Fast-моды в Codex/Claude Code) и многое другое. Мне интересно, пока смотреть не буду — готовлю всем сюрприз про дипсик 😮
В очередной раз увидел, как одна модель смогла исправить баг, который друге не могли. Такое происходит постоянно, и часто истории продаются как «блин вот из-за такого видимо придётся переходить с модели X на Y».
При этом я во многом не считаю такие примеры показательными. Давайте подумаем почему.
Во-первых, навыки модели во многом обусловлены данными и задачами, на которых их тренируют. Из-за этого даже модель, которая лучше в среднем по широкому набору задач может проигрывать в отдельных подзадачах каки-то доменов. Вот одна компания обучала модель искать баги одним пайплайном с такой-то инструкцией, и LLM научилась, а у другой было гораздо более обширно, но конкретно такой аспект не выучился.
Во-вторых, модели недетерминированы, и что не решается 1 запуском может решаться 3, 5 или 10 попытками. Может просто так получиться, что в запросе к другой модели чуть больше повезло.
В-третьих, все такие тесты подвержены проблеме восприятия. Когда новая модель решает что-то, что не решила старая, то мы автоматически предполагаем, что она решила бы всё, что у меня решала предыдущая. С такой точки зрения кажется, что нужно переходить на вот эту новую модель — она ведь ничем не хуже, а только лучше. Но это не так: все задачи, которые у нас сразу сработали на первой, не обязательно работают на второй. И сменив модель можно быстро попасть в ситуацию, где уже привычные вещи не работают (кстати, поэтому менять модели сложно — вроде привык, а вот какая-то достаточно простая штука не работает, и всё, кажется, что супер-тупая; хотя надо просто по другому промптить).
Такая картина бывает даже с опенсурсом, когда условный DeepSeek решает проблему, которую не смог решить Opus. Является ли один-два таких примера показательными? Конечно, нет.
Что может быть каким-никаким прокси сигналом — это сколько таких заявлений в целом появляется при релизе по отношению к предыдущим (и важно делать поправку на аудитории моделей). Но поскольку такую аналитику делать никто не будет, то и говорить нечего 🤷♂️
А для конкретного пользователя действительно может оказаться, что под его стак (язык + библиотеки + LLM-клиент + как он промптит + что угодно) одна модель лучше другой, если подобные ситуации повторяются часто.
Excel — один из камней, на которых стоит Microsoft, а Satya Nadella, CEO компании, очень тесно с ним связан — рекламировал его ещё в 1993 году!
На днях в Excel добавили функцию агента (может читать письма, заметки с встреч, искать в интернете, итд), и Microsoft решили переделать культовую рекламу в лифте из 1990-го.
Мне переделка не понравилась — оригинал идёт 4 минуты (из них по делу где-то 2.5), и в нём отлично понятно, что происходит, каков результат работы, а в 1990 это вообще производило впечатление.
Новая реклама идёт минуту, нам показывают 3 запроса в агента, и по 1 секунде чтобы понять, что он там наделал 👨🦳
Сама реклама: