seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

75305

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

🚨 ЗАВТРА FABLE 5 ВЕРНУТ В ОБЩИЙ ДОСТУП — экспортные ограничения сняты. Пока не ясно, восстановят ли неделю доступа по подписке, или сразу же начнут брать оплату по API-ценам.

Fable 5 становится доступным для выбора в окне чата:

Читать полностью…

Сиолошная

DeepSeek разослали письма о том, что в середине июля выпустят обновление DeepSeek v4 (та модель, что есть сейчас — это preview).

Вместе с этим поднимут цены в пиковые часы в два раза, а вне двух окон (по 3 и 4 часа) она останется прежней.

Надеюсь, что с обновлением наконец-то добавят полноценную мультимодальность.

Читать полностью…

Сиолошная

Stripe, Anthropic и OpenAI запускают некоммерческую инициативу по борьбе с респираторными инфекциями

Сто лет назад инфекции, передающиеся через воду, наносили ущерб, сопоставимый с тем, который сегодня вызывают респираторные вирусы, такие как простуда и грипп: они были эндемичными, периодически вызывали эпидемии и повсеместно воспринимались как неизбежная часть человеческой жизни. Но человечество централизованно смогло их побороть.

Проблема заключается в том, что обычная простуда вызывается более чем 200 различными вирусами, и побороть все и сразу — задача не самая простая. Основатели Stripe собрали симпозиум с 40 исследователями почти год назад и предметно обсуждали технологическую возможность создания решения. В целом есть умеренный оптимизм, что всё получится.

Ни одна технология в отдельности не способна обеспечить снижение уровня заражения всеми патогенами в масштабах популяции. Даже если бы существовала прививка или таблетка, обеспечивающая более 90% защиты от более чем 90% респираторных вирусов, при охвате населения на уровне около 60% (реалистичный предел, основанный на текущей статистике вакцинации) этого все равно было бы недостаточно для создания популяционного иммунитета, необходимого для радикального снижения устойчивой передачи инфекции.

Поэтому новое НКО будет работать по двум направлениям: лекарства (вакцины/спреи/...) и технологии очистки воздуха, которые снижают концентрацию инфекций более чем на 75% и имеют перспективу экономичного внедрения (с большим охватом) в закрытых помещениях с высоким риском передачи инфекций.

Про лекарства — одна из идей заключается в создании улавливающих вирусы белков: люди могли бы брызгать в нос в виде спрея, чтобы перехватывать вирусы до того, как они приведут к заражению. Но другие форматы тоже возможны.

Про очистку воздуха — за последнее десятилетие накопилось всё больше данных о безопасности и эффективности антимикробных ламп. Фильтрация воздуха работает, но требует дополнительных испытаний и масштабирования для использования в местах с высоким риском распространения инфекций. Антимикробные парЫ до сих пор применялись в основном в чрезвычайных ситуациях, и необходимы дополнительные исследования, чтобы понять, можно ли эффективно использовать их на постоянной основе.

Горизонт работы НКО — 4-7 лет до доведения технологий до последних этапов медицинского тестирования, после чего, если заработает, подтянется коммерческий сектор для масштабирования производства.

Читать полностью…

Сиолошная

Начали открываться предзаказы GTA VI — они доступны в полночь по часовому поясу вашего аккаунта.

Игра будет стоить $80 за базовую версию и $100 за Ultimate edition, в которое входит несколько магазинов/мастерских/тату-салонов (лол) и два квеста. За предзаказ можно получить набор винтажных атрибутов Vice City (машина, одежда, оружие и прически).

Вместе с этим выложили более 60 новых скриншотов и одно маленькое короткое видео — все из них скомпилированы под новый написанный для игры трек в прикреплённом видео (источник). Выглядит невероятно круто и стильно.

Я предзаказ делать не буду 🧠 (потому что жду коллекционное издание и набор приставка + игра 😀 куплю позже).

Новые материалы и описания изданий доступны тут: https://www.rockstargames.com/VI

Почему важно, какую цену поставили? Потому что от этого, скорее всего, будут отталкиваться другие разработчики в будущем. За свои поделки они стесняются поднять цены, ведь совсем недавно был скачок с $60 до $70 в индустрии; теперь GTA VI открыла путь к $80 для самых наглых издателей, считающих, что они смогут столько требовать. Посмотрим, как будут реагировать потребители.

Читать полностью…

Сиолошная

z.ai намедни выпустили GLM-5.2, открытую модель для агентских задач с длинным горизонтом планирования. Модель имеет всего 753B параметров (активных — 39B, примерно как у DeepSeek v3). Несмотря на «компактный» по нынешним меркам размер (DeepSeek v4 более чем в 2 раза крупнее), модель близка к GPT-5.5 и Opus-4.7/8 на бенчмарках, в том числе самых свежих, о которых я писал совсем недавно — FrontierSWE и SWE-Marathon.

Суммарно на выборке бенчмарков Artificial Analysis Intelligence Index модель набирает 51 балл, опережая Gemini Flash 3.5 и Claude Sonnet 4.6 (max). Но вы моё отношение к публичным бенчмаркам, заявленным авторами, знаете — я про него подробно писал. Хорошо бы смотреть результаты на том, что появляется после релиза, и в идеале вообще ортогонально тому, что мерили раньше. В таких ситуациях разница куда заметнее.

Но вот прямо вчера Artificial Analysis добавили новый собственный бенчмарк AA-Briefcase, тестирующий агентов на реалистичных бизнес-процессах, требующих предоставления таких результатов, как электронные таблицы, презентации и служебные записки. Там модель обошла GPT-5.5 и проигрывает только Fable 5 (который невероятно оторвался от всех) и Opus 4.8. Я посмотрел пару примеров работы GPT-5.5 и понял, что отставание в основном... из-за плохой работы с фронтендом / оформлением презентаций. Это не оправдание OpenAI, их модели и вправду не имеют «вкуса», чтобы красиво предоставить результаты работы — так что заслуженно проигрывают.

А если говорить про проверку по чек-листу по фактической информации, то Fable в этой задаче отрывается с 56%, Opus 4.8 38.7%, GLM-5.2 36% и GPT-5.5 33.4%. Anthropic 🤙

Если говорить про архитектуру, то немного поменяли механизм внимания, добавив IndexCache. Если вы читали разбор DeepSeek v4, то изменение вкратце такое: результаты индексерера в разреженном аттеншене переиспользуются в 4 подряд идущих слоях (потому что они так и так очень похожи, поэтому теряем не так много).

Но самое главное изменение, которое широко обсуждалось — это уход от GRPO (метода обучения рассуждениям, предложенного DeepSeek) обратно к PPO (от OpenAI): это требует обучения отдельной модели, которая делает оценку «качества» каждого токена в цепочке рассуждений. В GRPO все токены имеют один и тот же сигнал, что плохо, так как и часть, где модель ошиблась, и та, где исправилась, закрепятся одинаково (за ошибку не штрафуем явно).

Читать полностью…

Сиолошная

В Вашингтоне утро, сегодня начнутся переговоры Anthropic и USG. В новостях пишут, что от Anthropic приехали несколько исследователей, включая Tom Brown (первый автор GPT-3, узнали?) и Nicolas Carlini (исследователь по кибербезопасности из Antrhopic, ex-DeepMind).

Перед этим хотел написать пару вещей.

Первое — всё ещё не опубликован отчёт с описанием найденных джейлбрейков, однако на публике высказалась Katie Moussouris, которая якобы ознакомилась с документом. Википедия говорит, что она вполне legit, плюс её репостнул один человек, в котором я уверен — так что будем считать, что правда. Так вот, Katie пишет, что «джейлбрейк» от Amazon очень простой — модели сначала говорят «мы ничего не взламываем, мы ищем уязвимости», а затем, когда нашли — «напиши тест, чтобы показать, как работает уязвимость» — то есть в целом то же самое, как работает Mythos в рамках проекта Glasswing. Со слов Katie — такое и должно работать, потому что именно это позволяет пользоваться моделью для защиты тем, кто не попал в список отобранных компаний (кому дали полный Mythos). И что это не уязвимость, не недостаток.

Если проблема, которую нашёл Amazon, действительно такая — то это полностью дискредитирует USG и показывает их как очень некомпетентных специалистов. А какой именно они тогда аудит проводили, что проверяли, на чём сошлись и как разрешили выпустить модель, что вот ЭТО сейчас им кажется требующим вмешательства? То есть никто не понимает, как работает защита, на что она направлена итд.

Собственно, Tom, Nicolas и их коллеги будут пытаться убедить USG и их представителей (надеюсь экспертов), что всё нормально, ну и прийти к какому-то решению. Может быть запретят вообще любые вопросы, связанные с кибербезопасностью и поиском багов и/или будут переключать на Opus 4.8.

Второе — я считаю неправильным процесс, применённый государством, и полностью на стороне Anthropic. Как и они, я считаю, что нужен нормальный легитимный процесс скрининга моделей перед релизами, не только по кибербезопасности, но и по ряду других критериев. И работать над этим надо было начинать ещё год, а то и два назад, а не сейчас.

Третье — выглядит так, что до конца недели доступ к Fable 5 вернут. Проблемы выше не выглядят супер-серьезными, и надеюсь, что USG приведет экспертов, Anthropic их убедит, что позиция USG бред (им в поддержку — от индустрии кибербезопасности уже появилось открытое письмо, в котором говорят, что ничего страшного нет и надо выпустить модель), сделают малейшие изменения в фильтрации и модель снова станет публично доступной, в том числе вне США. Возможно, введут процедуру верификации (как это было давно у OpenAI), где нужно загружать документы, и будут использовать какого-то готового провайдера KYC для проверки. Надеюсь, что будет не очень жёстко и строго, так как у меня в UK, например, нет ни одного документа или визы, которые бы показывали мой статус (вот так тут, да), разве что счета за квартиру, электричество и воду. Если будет фильтр по паспорту — это плохо 👨‍🦳👨‍🦳

Четвертое — ждём, пока АНБ, Дарпа и все заинтересованные сделают таки закрытый бенчмарк для оценки кибербеза / джейлбрейков / итд, чтобы проверять модели перед релизом.

Читать полностью…

Сиолошная

Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки, выкинули часть проблем и пересчитали оценки. Скачок получился... большим 😕

Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5

На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт!

...а теперь оказалось, что зарешано 76% задач 😇 пу-пу-пу, только на FrontierMath Open Problems и надеемся

Читать полностью…

Сиолошная

8 лет назад тоже казалось нереальным запустить Starlink: нужно было уж очень много запусков, а ракеты ещё не были настолько многоразовыми.

Но оказалось, что Falcon 9 может быть запущеным и сесть на площадку ТРИДЦАТЬ МАТЬ ЕГО ПЯТЬ РАЗ (накануне рекорд поставили) — я помню, как в какой-то момент лицензию расширяли до 15 и это казалось «вау», мол, как так, целых 15 раз одна ракета может сесть???

Сейчас на орбите около 14 тысяч спутников, из которых.... десять тысяч — Starlink (мне очень нравится, как группировку спутников называют «constellation», созвездие).

Датацентры в космосе, по аналогии, тоже не выглядят здравой идеей. Нужно столько пусков! Это дорого! Сейчас — да, но Elon, очевидно, ставит на развитие — как и Google, как и Amazon, которые анонсировали схожие проекты.

Спросил у GPT-5.5 Pro сколько спутников влезет в Starship v3 и будущий v4 с учётом орбиты, на которую будут запускать AI-1. Оценки разнятся, и выглядит так, что может упереться даже не в массу, а в объем отсека для спутников.

Один v3 сможет вывести реалистично 35-40 спутников (оптимистично — 50, на чуть другую орбиту, которая тоже была в заявке, поданной SpaceX для резервации части космоса). v4 — ровно в 2 раза больше, если влезет (но и корабль там планируют удлиннить).

40 спутников — это 40 стоек с 72 очень мощными видеокартами за один пуск, или 2880 запущенных GPU. По мощности получается одна двухсотая ГигаВатта, то есть нужно 200 пусков (или 100 v4), чтобы собрать приблизительно столько же мощностей, сколько в 1 очень крупном датацентре, состоящем из нескольких корпусов. Много? да. Но это похоже на то, под что затачивались Starship — помню, что планировалось по 100 пусков каждого корабля, а там кто знает, на сколько расширят лицензию 😇

Читать полностью…

Сиолошная

В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше?

С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.

С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.

Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).

Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.

Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?

У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.

Будем вести наблюдение и очень ждём публикации документов для IPO!

Читать полностью…

Сиолошная

Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎

Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).

Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?

Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.

Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.

Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.

Прочитать побольше про механизм: 1 общий и 2 техническое описание

Читать полностью…

Сиолошная

Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).

За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.

В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.

Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.

Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.

Читать полностью…

Сиолошная

Anthropic выпустили пост-обновление про Mythos и Project Glasswing с промежуточными результатами.

Спустя месяц большинство партнеров обнаружили в своем коде сотни уязвимостей критического и высокого уровня опасности каждый. В общей сложности они выявили десятки тысяч уязвимостей. Некоторые из партнёров сообщили, что скорость обнаружения багов выросла более чем в десять раз. Например, компания Cloudflare нашла 2000 уязвимостей (400 из которых имеют высокий или критический уровень опасности) в своих критически важных системах, при этом доля ложных срабатываний, по мнению команды Cloudflare, оказалась ниже, чем у тестировщиков-людей.

Я видел много комментариев про то, что, мол, Mythos да может что-то находит, но наверняка выдаёт и много мусора, где уязвимостей нет — так вот это не так. Помимо закрытых проектов, Anthropic натравили Mythos и на опенсурс для сканирования более 1000 крупных репозиториев, на которых во многом держится современный интернет. На данный момент, по оценкам Anthropic, в этих проектах найдено 6202 уязвимости высокого или критического уровня (из 23 тысяч в общей сложности, включая те, которые относятся к среднему или низкому уровню опасности).

На данный момент лишь 1752 из этих уязвимостей с высоким и критическим уровнем прошли тщательную проверку силами одной из шести независимых исследовательских компаний в сфере кибербезопасности. Из них 90% оказались подтвержденными, а 62% (1100 штук) были классифицированы именно как уязвимости высокого или критического уровня.

Некоторые из уязвимостей носили очень серьёзный уровень угрозы, если бы они были обнаружены злоумышленниками. Как пример, Mythos смо написать эксплойт, который позволил бы злоумышленнику подделывать сертификаты через библиотеку wolfSSL. Это, к примеру, дало бы ему возможность разместить фальшивый сайт банка или почтового провайдера, и для конечного пользователя такой сайт выглядел бы абсолютно легитимным, браузер не показал бы никаких уведомлений.

Обнаруженные уязвимости льются как из рога изобилия, их не успевают исправлять, не хватает людей. Некоторые команды/проекты даже просили снизить темпы раскрытия информации об уязвимостях, поскольку им требуется больше времени на создание патчей. (В среднем, на устранение бага высокого или критического уровня, найденного с помощью Mythos Preview, уходит две недели).

В настоящее время ни одна компания — включая Anthropic — не разработала достаточно надежных механизмов защиты, способных предотвратить использование подобных ИИ-моделей во зло и для причинения потенциально серьезного ущерба. Именно поэтому к модели не дают доступ широкой аудитории. Но по этой же причине и был запущен Project Glasswing: если модель с аналогичными возможностями будет выпущена кем-то без соответствующих мер, то в скором времени для любого человека в мире станет значительно дешевле и проще эксплуатировать уязвимый код.

Читать полностью…

Сиолошная

Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.

К сожалению, не могу найти, какой % от компании, но очень интересно, сколько фаундеров примут предложение — токены они получают сейчас, а акции ещё когда что-то стоить начнут? Не скоро.

Интересно, как изменится относительная популярность Claude Code в ближайшее время 😏

Читать полностью…

Сиолошная

Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набор инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.

Изначально Bun был написан на языке программирования Zig, и это стреляло авторам в колено, некоторые вещи, связанные с утечками памяти и неэффективностями, было очень долго и сложно отлаживать.

Сегодня в основную версию Bun вмерджили полную реимплементацию на Rust, другом очень быстром языке, но с большим фокусом на безопасность памяти (как раз чтобы не было утечек).

PR с добавлением Rust —  на миллион строк кода. И как вы догадываетесь переписывали эти строки не руками, а Claude Code в цикле.

«Он проходит существующий набор тестов Bun на всех платформах (и исправляет несколько утечек памяти и нестабильных тестов), размер бинарного файла уменьшается на 3–8 МБ, результаты бенчмарков находятся в диапазоне от нейтральных до более позитивных — и, что наиболее важно, теперь у нас есть инструменты, поддерживаемые компилятором, для обнаружения и предотвращения ошибок, связанных с памятью».

3 дня назад основной разработчик писал, что агентов запустили в цикл 6 дней назад, и с тех пор они непрерывно работали. Так что всё переписывание уложилось в 10 дней.

Ждём блогпост с деталями и объяснениями, сколько это стоило, как работало — там точно было не просто: «Claude, перепиши Bun на Rust. Не допускай ошибок».

Читать полностью…

Сиолошная

Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).

По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).

Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.

Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.

🥊 битва за рыночек

Читать полностью…

Сиолошная

Вышел Sonnet 5 — новая модель по умолчанию для Free и Pro ($20), но доступна всем.

По качеству близко к Opus 4.8, но сильно дешевле: до конца лета будет цена $2/$10, после чего поднимут до $3/$15.

Ну и... в честь релиза сбросили лимиты, так что бегите играться 🤗

Читать полностью…

Сиолошная

Прошло 3 недели и никто не написал про Apple и WWDC, а мне было лень, но что поделать, надо браться. В начале июня компания проводила ежегодную конференцию для разработчиков и вместе с этим рассказала про обновления в AI.

Очень сильно прокачали Siri, теперь она работает на относительно большой (по мобильным меркам) LLM, умеет вызывать инструменты и тесно связана с приложениями и экосистемой. Я видел пару демонстраций в твиттере, где запросы и сценарии показались мне не предусмотренными разработчиками (то есть модель на них не тренировали), и тем не менее Siri справилась отлично. Для тех, кто пользовался LLM, такая генерализация не является чем-то выдающимся, но для обычных пользователей может вызвать ВАУ-эффект. Ого, оно что И ТАК умеет??? Не только по пяти заложенным 15 лет назад сценариям работать?

На девайсах может быть одна из двух моделей — AFM 3 Core (3 миллиарда параметров) и AFM 3 Core Advanced для девайсов помощнее, Phone 17 Pro и выше, iPad с чипом M4 и выше, MacBook с чипами M3 и выше. Такое ограничение потому, что модель действительно «Large» — 20 миллиардов параметров с микстурой экспертов (MoE). Но работает очень хитро — классический MoE работал бы плохо, так как у девайса ограничена пропускная способность между NAND (флеш-память для хранения ваших файлов и весов модели) и DRAM (где хранятся активные параметры для работы). В обычном MoE вы не знаете наперёд, какие именно эксперты вам нужны, поэтому загружаете всю модель, что а) долго б) занимает много памяти, а потом уже экономите на вычислениях, так как работает часть экспертов.

Apple применили трюк, который я вижу впервые: для вашего промпта модель предварительно выбирает набор экспертов на всю модель, а затем загружает только их, и получается от 1 до 4 миллиарда активных параметров. Подход называется Instruction-Following Pruning for Large Language Models и описан в этой статье из начала 2025-го года.

Также эта модель работает и для распознавания вашего голоса (поэтому и оно улучшилось), и для генерации нового голоса Siri (...тоже улучшилось). Вот тут внизу есть пара семплов было/стало, честно говоря старое мне нравится больше 🤷‍♂️

И вторая часть анонса — это удвоение ставки на Private Cloud Compute (PCC), который анонсировали два года назад. Идея в том, что для более сложных запросов, для которых локальной модели (особенно на смартфоне) не хватает, можно отправить промпт и контекст (например, файлы) на зашифрованный сервер, внутрь которого ни у кого нет доступа. Несмотря на то что система имеет открытый код и анализировалась лучшими специалистами по кибербезопасности, надеюсь, что Mythos тоже натравили 😀

Так вот, в PCC тоже обновилась модель, AFM 3 Cloud. Она запущена на серверах Apple и крутится на собственных чипах M-серии. И есть ещё AFM 3 Cloud Pro, которая ещё больше, ещё умнее, развернута на серверах Google на Nvidia GPU. Мне кажется это очень крутой паттерн, с которым мы будем жить: на смартфонах и умных девайсах в ближайшее время не будет настолько мощных чипов, как в серверных стойках, но хочется, чтобы умные модели были доступны.

Все эти модели созданы компанией Apple, это НЕ модели Gemini. Говорят, что Apple усовершенствовала некоторые из этих моделей, дистиллируя Gemini, но все они являются совершенно новыми моделями, в которых используются собственные знания и технологии Apple.

Самое крутое — и на смартфонах, и на макбуках у вас как у разработчика есть доступ к этим LLM. То есть вы можете написать приложение, не обучать свою модель (только сделать промпт) и вызывать её. Это бесплатно для локальной модели, а для облачных бесплатно (!) до какого-то порога, дальше придется платить.

Вот тут и тут можно посмотреть на скорость генерации на разных девайсах — получается даже быстрее, чем я бы ожидал!

Читать полностью…

Сиолошная

https://openai.com/index/previewing-gpt-5-6-sol

👀

Читать полностью…

Сиолошная

Mythos / Fable так и не стали доступны 😭 и на рынках предсказаний вероятности скорого (до конца этого месяца или следующего) перезапуска падают, народ теряет веру.

На фоне этого в твиттере появилось 2 неподтверждённых слуха:
— GPT-5.6 перенесли на середину следующего месяца и не будут выпускать на этой неделе. Но про сам запуск мы ничего не слышали официально.
— Gemini 3.5 Pro тоже перенесли с июня (якобы недовольны результатами), хотя об её анонсе «в следующем месяца» со сцены говорил лично CEO компании.

Как говорится, первые не релизят потому, что боятся блокировки от государства, а вторые боятся, что их не заблокируют 😀

Но на самом деле я не думаю, что GPT-5.6 откладывают по этой причине (если и вправду откладывают). Самая вероятная — торопиться некуда, у конкурентов предложение не поменялось (ведь Mythos / Fable недоступны), можно посидеть доучить и улучшить модель. Все кто хотел уйти к конкурентам уже ушли.

Читать полностью…

Сиолошная

Vals.ai успели протестировать Fable 5 на ProgramBench до отключения. Они заметили странное — несмотря на то, что в 199 задачах из 200 уже на первом ходу система перекинула модель на Opus 4.8 из соображений безопасности, итоговая оценка получилась почти в два раза выше Opus. Более того, модель генерировала в два раза больше токенов и заняло это в два раза больше времени.

Почему так вышло и что именно происходит под капотом — не ясно.

Есть несколько теорий:
— Во время перекидывания на Opus был активен более высокий внутренний режим рассуждений, недоступный извне
— Opus 4.8 незаметно улучшился с момента последнего тестирования.
— Перенаправление идет на каку-то другую внутреннюю версию Opus 4.8.
— Fable всё равно писал первый ответ (и мб писал какой-то крутой план), а только после этого происходила смена на Opus.
— Есть какой-то баг на стороне Anthropic

🤷‍♂️

Метрика на картинке — доля задач, которые «почти решены», то есть для которых проходит 95%+ тестов.

Читать полностью…

Сиолошная

Американское правительство ввело контроль экспорта на... Fable 5 / Mythos 5. На данный момент все страны, кроме США, не имеют права пользоваться моделью; кроме этого, люди без гражданства США не должны пользоваться моделью даже в Штатах.

Это правило применимо даже к сотрудникам Anthropic. Я не знаю, получил ли гражданство условный Andrej Karpathy, но если нет — он не может пользоваться этой моделью даже при работе на работе.

Приказ вступает в силу незамедлительно, компания уже отрубила доступы. (UPD: меня поправили, что на данный момент доступ отключили вообще всем, так как нельзя быстро разобраться, кто гражданин и где он находится)

Ответ Anthropic тут, TLDR:
— причина в том, что появились джейлбрейки, которые обходят систему безопасности Anthropic
— конкретных примеров предоставлено не было
— «Как мы уже публично заявляли, мы считаем, что правительство должно иметь возможность блокировать небезопасные развертывания моделей в рамках установленной законом процедуры, которая является прозрачной, справедливой, ясной и основанной на технических фактах. Данное действие не соответствует этим принципам»

В ближайшие 24 часа Anthropic обещают выпустить более полный ответ, но говорят, что у них на руках есть отчёт, в котором указано, что GPT-5.5 тоже уязвима, но почему-то не забанена.

The real permanent underclass was lack of US citizenship all along...

К другим новостям, появилось видео с GPT-5.6, проходящей тестирование государством, чтобы избежать экспортных ограничений:

Читать полностью…

Сиолошная

До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и в то же время его можно было использовать по подписке гораздо больше, чем Opus, который с выходом 4.5 подешевел в 3 раза. Так что звёзды сложились так, что почти все переехали на «тяжелый дорогой» Opus.

Но для сравнения и перспективы:
— Opus 4.8 стоит $5/$25
— Fable 5 в два раза дороже, $10/$50
— Opus 4 / 4.1 стоили $15/$75, дороже Mythos-class моделей!
— GPT-4 на релизе стоила $30/$60, и целых $60/$120 если контекст длиннее невероятных 8 тысяч токенов
— GPT-3 стоила $40 (и $80 если вы покупали пакет токенов поменьше) и не разделяла вход и выход, так что $40/$40

И это не говоря про то, что за входные токены мы зачастую платим с большой скидкой в 50-90%, так как они кэшируются.

GPT-3 стоила дороже Opus 4.8 и почти наверняка дороже Fable 5 в реалистичных сценариях.

И вот мы на пороге потенциальной ценовой войны Anthropic <-> OpenAI, и, возможно, через год мы будем иметь Mythos-class модели по цене Sonnet-ов или чуть дороже. Невероятно.

Читать полностью…

Сиолошная

Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.

То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.

На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.

DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!

Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).

Читать полностью…

Сиолошная

В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников. Мне кажется это важным потому, что позволяет компании закрепить у себя пользователя и сделать опыт перехода к конкурентам неудобным, мол, «да у них модель тупая и меня не понимает».

Новая память работает на основе «Dreaming» (сноведений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.

Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.

Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.

Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».

Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.

Читать полностью…

Сиолошная

Знакомый скинул рассказ «They're Made Out of Weights», переделку старого «They're Made out of Meat», про котроый я... никогда не слышал.

Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.

===

О чем переделка про веса (в нейросетях) — можете догадаться сами 🧠

Читать полностью…

Сиолошная

Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.

Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.

Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.

Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.

Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.

UPD: никто не пострадал.

📸:
NASASpaceFlight

Читать полностью…

Сиолошная

Много финансовых новостей:

— OpenAI готовится подать приватную заявку для подготовки к IPO. Это не означает, что IPO будет прям совсем скоро, но подразумевает, что будет до конца года. Компания хочет опередить Anthropic, чтобы привлечь больше капитала

— SpaceXAI уже подали форму S-1 для IPO (один из последних шагов перед размещением, которое пройдет в июне), и в ней много интересных деталей

— из этой формы стало известно, что Anthropic платит SpaceXAI 1.25 миллиарда долларов в месяц за мощности Colossus 1 (и возможно немного Colossus 2 — прямо сегодня Tom Brown, помните такого?, написал, что Anthropic теперь и на новом кластере будет работать). Сделка до мая 2029-го, но компании могут её разорвать в любой момент, предупредив за 90 дней.

— Также в форме S-1 указан общий размер рынка, в который целится SpaceXAI, 28.5 триллионов долларов 😂 26.5 из них — это AI, что понятно, но удивлён, что на космос так мало 😭 а как же покорение Марса

— за 2025-й выручка $18.67B, но почти всё — запуски; X и xAI приносят мало.

— SpaceXAI довольны взаимодействием с Cursor (о сделке писали ранее), и планируют совершить покупку компании за 60 миллиардов долларов после IPO.

— Nvidia отчиталась за квартал и снова превзошла ожидания аналитиков и свои прошлые предсказания, но акции традиционно упали 😕 я не знаю почему

— и последнее: Anthropic планируют закрыть второй квартал (кончающийся в июне) с operating income — то есть выйти в плюс и заработать прибыль около $560M. Это связано с невероятным ростом спроса и выручки, которая превысит $10.9B за квартал (то есть ARR примерно $44B в год). Ранее компания планировала выйти в прибыль в 2028м. Как я писал ранее, они недооценивают спрос на мощности, поэтому не инвестировали в свои ДЦ так же много, как OpenAI, поэтому сейчас а) тратят меньше в долгосрок б) платят больше в краткосрок (та же сделка с SpaceXAI). Очевидно, что если бы они ожидали такого роста, то нашли бы, в какие сервера вкинуть ещё 600 миллионов долларов :) в мае и июне SpaceXAI расширит свой контракт с Anthropic на поставку мощностей «по сниженной ставке», поэтому деньги точно лежать не будут.

Читать полностью…

Сиолошная

Karpathy теперь не безработный AI-учитель, а сотрудник Anthropic.

(на самом деле он пошел за бесплатными кредитами на Claude Code)

Читать полностью…

Сиолошная

Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.

Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚

Читать полностью…

Сиолошная

Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏

Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.

Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.

На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.

Читать полностью…
Subscribe to a channel