seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

71211

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

А ведь менее чем неделю назад на конференции в Индии эти двое не могли взяться за руки

Читать полностью…

Сиолошная

3.5 месяца назад после выхода Kimi K2 Thinking, как и после любого другого релиза, началась волна комментариев в духе «Да всё, да Китай догнал, да эти модели уже на уровне не то что OpenAI а Anthropic».

Как и в случае с R1 vs o1, я считаю, что это бред. Мой твит с хот-тейком про превращение паритета на бумаге в разрыв в реальности набрал под 80 тысяч просмотров, поэтому я решил вернуться и проверить, был ли я прав.

Остают ли модели от фронтира, и если да, то почему? Об этом читайте в новом блогпосте: ikot.blog/the-illusion-of-parity

Читать полностью…

Сиолошная

Считаю, что тут очень важная мысль - как

Читать полностью…

Сиолошная

Посмотрел вчера это интервью, очень понравилось, особенно часть с 00:58:49 про инвестиции в мощности и выход на прибыль. В целом Dario достаточно хорошо ответил на заковыристые вопросы, очень хотелось бы услышать ответы на ровно них же от Sama (хотя уверен, что они будут такими же, но с более агрессивными целями).

Если вкратце, то:
— Dario верит, что «страна гениев в датацентре» появится в течении 3-4 лет.
— Почти наверняка индустрия AI (3-4-5 ведущих игроков) будет иметь выручку больше триллиона долларов в 2030-м. 3 года на «страну гениев в датацентре», 2 года на диффузию этого в экономику от текущего момента.
— После этого ВВП может начать расти на 10-20% в год. Компании и дальше будут наращивать мощности, инвестируя уже триллионы долларов, пока не достигнут некоторой точки равновесия, где дальнейшие вливания уже дают очень маленькую отдачу. Эквилибриум задаётся тем, сколько всего чипов будет производиться, и какую долю в ВВП будет составлять выручка компаний.
— Dario снова повторил предсказание про то, что модели через год смогут делать 90% работы инженеров-разработчиков (не только написания кода).
— Подтвердил / прокомментировал почти все слухи, которые мы получали из утечек презентаций для инвесторов касательно маржинальности, планов по росту выручки, выходу на прибыль.
— Выход на прибыль в 2028-м пока обусловлен тем, сколько спроса они видят, сколько мощностей нужно на исследования и сколько чипов смогут купить.
— Но из всех ответов Dario я скорее укрепился во мнении, что OpenAI имеют более рисковый и при этом реалистичный план; Anthropic уже двигали год выхода на прибыль, и это может повториться снова.

Dario несколько раз подчеркнул, что их инвестиции в мощности не настолько агрессивны, так как если они ошибаются хотя бы на год, то компания обанкротится. Я с этим не согласен, мне кажется он лукавит — ну или это верно для его компании, но не OpenAI 🤷‍♂️

А мой твит с этим кадром из подкаста как-то набрал полмиллиона просмотров 😳

Читать полностью…

Сиолошная

Картинка фотошоп, а твит выдуман:


Вчера вечером я встречался с Andrew Strominger и Alex Lupsasca, двумя ведущими физиками мира.

Они только что опубликовали статью в соавторстве с OpenAI, и, по-моему, это уже уровень ASI (искусственного суперинтеллекта).

Andrew, один из создателей теории струн, рассказал мне, что еще год назад он сомневался, что ИИ может быть хоть сколько-нибудь полезен.

Год спустя, после серии взаимодействий с GPT 5.2 Pro, они отправили итоговый запрос внутренней модели, которая решила И доказала ранее нерешенную задачу квантовой теории поля… всего за 12 часов.

Модель сделала то, что не удавалось двум умнейшим людям в мире в их области. И когда мы общались, они были в диком восторге от того, что может ждать нас впереди.

Andrew сказал: «Я впервые вижу, чтобы ИИ решил задачу в моей области теоретической физики, которая, возможно, вообще не под силу человеку».

Они отметили: «Изменились две вещи: модель стала лучше, и мы поняли, как с ней разговаривать».

Он также добавил: «Учитывая последние достижения, я чувствую, что теперь большинству физиков, желающих оставаться на передовой научного прогресса, придется учиться общаться с ИИ. Год назад в этом не было необходимости».

ASI уже здесь, просто он распределен неравномерно.

Читать полностью…

Сиолошная

https://openai.com/index/introducing-gpt-5-3-codex-spark/

GPT-5.3 в чипы Cerebras не влезла, поэтому вместо неё маленькая версия GPT‑5.3-Codex-Spark. Целевая скорость — тысяча токенов в секунду. То есть большинство ваших задач будут отрабатывать за < 3 минут, особенно если нет долгого прогона тестов.

Модель не поддерживает картинки и имеет всего 128 тысяч токенов контекста.

Из хороших новостей — модель НЕ жрёт ваши лимиты, так что если ваши задачи относительно простые для фронтир-моделей — то Spark вам должен очень зайти.

Бенчмарки на картинках — как видно, еле-еле составляет конкуренцию Codex-5.3-low (минимальное время рассуждений), зато быстрее.

Доступно везде: Codex app, CLI, и VS Code плагин (нужно обновиться)

Читать полностью…

Сиолошная

Как может выглядеть группировка из 5 тысяч спутников на солнечно-синхронной орбите на высоте 500-2000 км. «Солнечно синхронная» означает, что спутники всегда расположены одной стороной к Солнцу, а значит смогут получать энергию.

(спутники тут намеренно сделаны более яркими, чем будут в реальности)

Ждём группировку спутников-датацентров к 2035?

Источник

Читать полностью…

Сиолошная

Быстроновости в понедельник:

— Начался февраль, ожидается много релизов моделек, от китайских GLM-5 до Claude Sonnet 4.6 / 5 (который может выйти вообще завтра, судя по некоторым утечкам) и GPT-5.3.

— При этом источники из Китая говорят, что DeepSeek уже не планирует выпуск V4 в конце февраля (к Лунному Новому году). Компания, кстати, получила одобрение от Партии на закупку H200 у Nvidia — ещё месяц назад был полный запрет, «должно быть всё своё родное», потом разрешили закупку для Tencent и Alibaba, и вот дошли до Китов.

— OpenAI пытается успеть провести IPO в 2026-м году, Anthropic и SpaceX тоже. Большой год для финансовых рынков. А ещё xAI может ещё объединиться с Tesla/SpaceX, так что формально тоже выйти на биржу. Мне не нравится идея выхода Anthropic и особенно OpenAI на IPO — потому что оценка публичных компаний сильно подвержена новостному фону и настроению инвесторов, которые зачастую ничего не понимают. «Пишут, что GPT-5 плохая? Сливаем акции».

— Некоторые пользователи заметили, что у них обновился ChatGPT DeepResearch. Он теперь по другому строит план и может выполнять несколько пунктов плана одновременно. Возможно, это означает, что под капотом будут работать 💫agent swarms — это когда агент не один, а несколько.

— Agent Swarms вообще рискует стать одной из горячих тем 2026-го, где от каждой компании мы увидим релиз, связанный с этим. А возможно и новые уровни подписок, за $500 или даже $1000-$2000. Совсем недавно вышла Kimi-K2.5, которая обучена аркестрировать «сотни» агентов, но как и любая ранняя технология это скорее концепт нежели что-то реально стоящее. Ждём больших игроков, которые покажут, как правильно.

— По информации WSJ, CEO Nvidia в приватных беседах выражал сомнение в «бизнес дисциплине» OpenAI, и что обсуждение инвестиций в раунде на $100B пока заморожено. Сам Jensen эту информацию опроверг, сказав, что они участвуют в следующем раунде и сделают рекордную для себя инвестицию. Посмотрим, как будет — за кусок пирога OpenAI с ним будут тягаться Softbank, Microsoft и Amazon, последний хочет вкинуть какие-то огромные деньги, $50B.

— Завтра после обеда лонг (не про файлы Эпштейна)

Читать полностью…

Сиолошная

АИ и обучение программированию

Антропик взяли 52 джунов, им нужно было решить задачку, затем ответить на тестовые вопросы связанные с темой задачки. В вопросах теста рисерчеры сделали упор на понимание кода, дебаг сообщений и обших концептов. Джунов разделили на две группы: одна могла использовать АИ инструменты во время решения задачи (но не во время теста), вторая - нет.

Что получилось:
• Группа без АИ лучше справилась с тестом. Эти джуны чаще ошибались при решении самой задачки, но эти ошибки и были их обучением. Чаще видишь сообщение с ошибкий -> начинаешь их лучше понимать.
• Участники, которые надеялись на АИ слишком сильно, хуже всех справились с тестом. Сюрприз-сюрприз, если ты делаешь себя прослойкой между консолью и АИ чатом - ты ничего не поймешь.
• Участники активно взаимодействующие с чатом (просили объяснить куски кода, задавали вопросы о коде и смысле сообщений о багах) справились с тестом лучше всех.

Вывод? Если аутсорсить trial and error из процесса обучения в АИ, то ничему не научишься.

https://www.anthropic.com/research/AI-assistance-coding-skills

Читать полностью…

Сиолошная

Обещал не писать про очередные раунды, но это довольно большие значения, чтобы пропустить.

Amazon ведёт переговоры об инвестициях до $50 млрд в OpenAI. Если сделка состоится, Amazon станет крупнейшим участником текущего раунда, в котором OpenAI привлекает до $100 млрд при оценке около $830 млрд.

Вчера были сообщения, что SoftBank планирует участие в этом раунде, вкладывая до 30 млрд долларов. Сразу видно, что там комментариев в чатах не читают и не подозревают, что это пузырь пузырем и скоро лопнет.

https://www.wsj.com/tech/ai/amazon-in-talks-to-invest-up-to-50-billion-in-openai-43191ba0?st=GjBnZ4&amp;reflink=desktopwebshare_permalink

Читать полностью…

Сиолошная

Картинки к посту (на последней Dario увидел, какой датацентр запланирован у OpenAI, и решил повысить прогноз).

Читать полностью…

Сиолошная

В ближайший месяц нас ждёт много обновлений Codex — серьёзного конкурента Claude Code. Пока никакой конкретики нет, так что будем гадать сами.

Сегодня должен состояться стрим с вопросами-ответами от команды (в полночь по Лондону и 3 ночи по Мск), где, возможно, состоятся какие-то анонсы.

Codex на выходных получил режим планирования — это когда он исследует код, но ничего не дописывает, и выдаёт один из способов решения вам на обсуждение. Такая фича уже давно есть в Claude Code.

Sama пишет про «новое поколение инструментов» — видимо, к Codex добавятся другие крупные фичи, как было /review или Aardvark, система анализа кода на уязвимости — кстати, появился у некоторых подписчиков ChatGPT Pro.

Sama как раз в твите говорит про кибербезопасность, так что логично предположить soft launch этого продукта.

Один из лидов Codex пишет, что «Команда работает с мощью тысячи агентов» — что может быть намёком на систему, аналогичную описанной командой Cursor, где агенты работали неделю над созданием браузера.

Не думаю, что OpenAI будет продавать эту фичу именно на масштабе недели, но вот сутки или «за выходные» — вполне. Мултьиагенты с ролями как раз недавно засветились в Codex — так что ждём.

Если накидывать из головы, то какие ещё фичи/продукты могут быть:
— детальнейшая проработка PRD (Product requirements document), чтобы вести разработку по ней
— проработка архитектуры перед имплементацией, от абстракций и раскладывания кода по модулям до определение фреймворков для работы
— ?

Читать полностью…

Сиолошная

Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки и лидом команды оптимизации — Tristan Hume.

Я всегда ценил творческие собеседования (а не банальные задания с LeetCode) и особенно домашние задания. Они действительно показывают, насколько команда заинтересована в работе.

Я рекомендую прочитать весь блогпост в оригинале, но вот несколько тезисов, которые мне понравились:

— Вся секция «Цели дизайна тестового задания»: и про реалистичность задания, и разработку сопроводительных инструментов для отладки, и про то, что, в идеале, можно привлекать AI-ассистента в помощь

— «Некоторые коллеги предлагали запретить использование ИИ при выполнении ДЗ. Я не хотел этого делать. Помимо сложностей с контролем, у меня было чувство: раз люди продолжают играть жизненно важную роль в нашей работе, я должен найти способ, чтобы они могли проявить себя вместе с ИИ — так же, как им придется делать это на работе. Я не хотел сдаваться и признавать, что люди имеют преимущество только в задачах длиннее нескольких часов».

— «Сегодня у инженеров по производительности в Anthropic всё ещё много работы, но она больше напоминает сложную отладку, системный дизайн, анализ производительности, поиск способов верификации корректности систем и того, как сделать код, написанный Claude, проще и элегантнее. К сожалению, эти вещи трудно объективно оценить без большого количества времени или общего контекста. Всегда было сложно делать собеседования, отражающие реальную работу, но теперь это сложнее, чем когда-либо».

— «Мне нужна была задача, где человеческое рассуждение могло бы превзойти огромную базу опыта модели: что-то, что находится достаточно далеко "вне распределения" (out of distribution). К сожалению, это противоречило моей цели сделать задачу похожей на реальную работу. Я вспомнил о самых необычных задачах по оптимизации, которые мне нравились, и остановился на играх Zachtronics. Эти игры-головоломки используют необычные, сильно ограниченные наборы инструкций, которые заставляют программировать нестандартными способами» (ждём ZachtronicsBench кстати)

— «В отличие от игр Zachtronics, я намеренно не предоставил никаких инструментов визуализации или отладки. Стартовый код проверяет только валидность решения. Создание инструментов отладки — это часть теста: вы можете либо вставить грамотные print-ы, либо попросить модель сгенерировать интерактивный отладчик за пару минут. Суждение о том, как инвестировать время в инструменты — это часть сигнала, который мы оцениваем»

— «Я вполне доволен новым тестовым заданием. Возможно, у него меньшая дисперсия результатов, чем у оригинала, потому что оно состоит из большего количества независимых подзадач [головоломок]. Ранние результаты многообещающие: оценки хорошо коррелируют с уровнем прошлых работ кандидатов, а один из моих самых способных коллег набрал больше баллов, чем любой кандидат до сих пор»

— «Мне всё ещё грустно, что пришлось отказаться от реализма и глубины оригинального задания. Но реализм может стать роскошью, которую мы больше не можем себе позволить. Оригинальное задание работало, потому что оно напоминало реальную работу. Замена работает, потому что она симулирует новую (невиданную ранее) работу»

Читать полностью…

Сиолошная

Решил не откладывать, получились вот такие прогнозы. Если интересно, могу скинуть ссылки на рассуждения ChatGPT, почему так вышло.

Для некоторых вопросов мнение совпадает с медианным, но несколько предсказаний выделяются. В частности, по прогнозу выручки — $75B вместо $95B. При этом ответ GPT-5.2 Pro мне кажется разумным, все цифры там основаны на прогнозах самих компаний: OpenAI $50B, Anthropic $22B. Звучит правдоподобно.

Читать полностью…

Сиолошная

Помните я буквально два дня назад писал про результаты конкурса предсказаний по АИ на 2025-й? Авторы запустили опрос на 2026й (несмотря на то, что в твиттере две недели назад автор сказал, что не будут этого делать, так как мало времени 👨‍🦳)

Заполняйте ваши предсказания тут: https://forecast2026.ai/ (до 25-го января)

(для 2025-го подвели результаты тут. Ajeya, iykyk, заняла третье место — она кстати недавно присоединилась к METR 👀👀)

В этом году ставим на (выборочно):
— FrontierMath Tier 4 (бенчмарк сложных исследовательских задач)
— Remote Labor Index (бенчмарк задач с Upwork, среднее время выполнения человеком 29 часов)
— OpenAI-Proof QA (баги, которые замедлили работу OpenAI на сутки и более)
— сумму выручек OpenAI, Anthropic и xAI на конец 2026-го (в этом декабре было ~30.8B, за год до этого $6.6B. Будет ли $100B+ в этом???)


Отдельно напишу, что недавно обновили лидерборд Remote Labor Index — одного из самых интересных для меня бенчмарков — первое место там занимает теперь Opus 4.5 с 3.75% 💪 (прошлый топ-1 это Manus 1.5, взявший 2.5%).

Попросил GPT-5.2 Pro оценить, сколько потенциальной выручки может приносить каждый процент на этом бечмарке в среднем на основе рынка США. Вышло, что:
— $13B (если брать только фрилансеров)
— $30B (если просто брать зарплатный фонд удалёнщиков
— $54B (если брать все задачи, которые могли бы делаться удалённо, но пока не делаются — тогда 100% это ~46% от всех зарплат в США)

Уж очень интересно, сколько % на RLI будет к концу 2026-го.

Читать полностью…

Сиолошная

Мы победили. Не будет дата-центра. И им придётся построить парк.

— 200 тысяч лайков за чуть более чем сутки.

Интересно почему же ДЦ хотят строить на орбите 🤔

Комментарий из твиттера:
200 тысяч лайков за радость от блокировки вычислительной инфраструктуры прямо во время гонки за AGI.

Ни один парк в истории человечества не будет иметь значения, если вы проиграете следующие 1000 лет цивилизационного развития стране, которая создаст его первой.

Кстати, именно так и выглядит упадок.
Вам даже не нужны войны — достаточно лишь людей, которые ликуют, разрушая и фундамент, и будущее своей собственной культуры (и при этом чувствуют свою абсолютную моральную правоту).

Читать полностью…

Сиолошная

Grok 4.20, обещаемый Elon Musk с августа прошлого года, появился в бете на https://grok.com/ .

При обработке вашего запроса используется до 4 агентов, которые общаются между собой; одному из них назначается роль лидера.

Думаю, что с точки зрения качества эти агенты не должны существенно накидывать по отношению к одной длинной цепочке рассуждений, но могут потенциально уменьшать время до получения ответа за счёт параллельных рассуждений и поиска.

Читать полностью…

Сиолошная

Так совпало, что и я на макбуке долго не обновлял операционную систему, и на андроид новый клиент телеграма не приходит. И вот на позапрошлой неделе обновились оба.

Теперь полностью могу прочувствовать это:

Читать полностью…

Сиолошная

Интересный факт. Суммарные капитальные расходы Амазон, Гугл и Мета на 2026 год - около $500 млрд. С Майкрософтом - порядка $650 млрд. И это не прогнозы аналитиков, а цифры с последних отчетов компаний.

Для масштаба. Это 2/3 военного бюджета США, а весь военный бюджет Китая в 2025 - $249 млрд официально (реально ближе к $295 млрд). Три техкомпании потратят на инфраструктуру вдвое больше, чем вторая военная держава мира тратит на всю армию.

Все страны НАТО, исключая США, потратят на оборону около $607 млрд в 2025. Четверка техгигантов по расходам сопоставима со всем европейским военным блоком.

Причем у НАТО эти $607 млрд размазаны по 31 стране на зарплаты, технику, операции, базы. У техкомпаний основная часть идет в одну точку - чипы, дата-центры, электричество. Такой концентрации ресурсов в частном секторе не было никогда.

Год назад $250 млрд совокупных расходов казались ненормальными (ну как минимум мне). В 2025 стало $410 млрд. На 2026 - $650 млрд, плюс 60% за год. При этом CEO Гугла на звонке с инвесторами спросили "что не дает вам спать" - вычислительные мощности. Им мало.

Одни уже покупают электричество у ядерных реакторов. Другие скупают участки рядом с электростанциями. Война за чипы, энергию и землю под дата-центры - это не сценарий из киберпанка. Это банально текущие фин отчеты.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=n1E9IZfvGMA

Читать полностью…

Сиолошная

Расчехляйте подписки на $200 — сегодня Codex начёт генерировать со скоростью 300-500 токенов в секунду 🚀🚀🚀

Читать полностью…

Сиолошная

По поводу недавних экспериментов Cursor и Anthropic с запуском десятков-сотен агентов на неделю — как всегда вспоминаю, что не все люди воспринимают мир одинаково, и зачастую сложно посмотреть на мир чужими глазами. Поэтому нужно писать вот такие вот объяснения.

Вау-эффект эксперименты вызывают по разным причинам — например, кто-то думает, что вау в том, что смогли сделать вот конкретно эти агенты с конкретно этими задачами. Кто-то справедливо замечает, что браузер на самом деле не с нуля написан, что комплиятор медленный, что качество кода не лучшее, и так далее — и потому считает, что никакого "вау" нет.

Но это вообще не то направление, в котором стоит смотреть. Главная причина для моего вау — это что модели текущего поколения без специальной тренировки работы роем агентов на задачи длительностью в 7 дней и больше уже могут показывать какой-то результат. А как мы знаем из последних полутора лет развития RL — как только появляется какой-то минимальный результат, то его можно в короткие сроки существенно прокачать, условно от 11% до 85%.

(я уверен, что фронтир-модели не учились или учились очень мало в таком формате)

Есть куча низковисящих фруктов, которые помогают делать прогресс по проблемным направлениям, и есть большое количество мощностей для заливания в задачи.

Как полтора года назад казалось, что модели еле-еле решают какие-то серьезные олимпиадные задачи, а теперь справляются с проблемами исследовательского уровня, так будет и тут. Через год рой агентов / команды субагентов / кто как назовёт будет гораздо способнее.

Однако прогресс тут может быть чуть более медленным, чем с обычными рассуждениями, так как каждая отдельная задача банально занимает много времени, несколько дней или неделю. Тут очень пригодятся методы увеличения количества сигнала из каждого роллаута, и, наверное, мы скоро увидим статьи по этой теме.

Читать полностью…

Сиолошная

Пока люди в твиттере хайпуют по бесполезному редиту для ИИ-агентов, а я дописываю 8-ую тысячу слов для следующего лонга — Anthropic отчитались, что марсоход проехал 400 метров под контролем Claude: https://www.anthropic.com/features/claude-on-mars

(детали будут после лонга)

Читать полностью…

Сиолошная

Ждать долго не пришлось: автомобиль Waymo сбил ребёнка около школы в Калифорнии.

Waymo заявили, что ее роботакси сбило ребенка на скорости 10 километров в час после резкого торможения с примерно 27 километров в час. Молодой пешеход «внезапно выскочил на проезжую часть из-за высокого внедорожника, двигаясь прямо на пути нашего автомобиля», — говорится в сообщении компании в блоге. Waymo заявила, что ее автомобиль «немедленно обнаружил человека, как только он начал выходить из-за остановившегося транспортного средства».

Ребёнок сразу же смог встать и отойти на тротуар, а такси вызвало 911.

Waymo утверждает, что по результатам их моделирования выходит, что «внимательный водитель в той же ситуации столкнулся бы с пешеходом на скорости приблизительно 22 километра в час». Хоть деталей этой аналитики не опубликовано, в целом поверить, что алгоритм сработал лучше человека не трудно.

Посмотрим, что скажет полиция, и как это повлияет на регуляции, а самое главное человеческое отношение. Каждый такой кейс может или поспособствовать ускорению внедрения самоходных такси, или откинуть их назад на годы.

Читать полностью…

Сиолошная

Существует заблуждение — и я удивлён, насколько распространённое — что инференс моделей убыточен, и что компании его субсидируют, чтобы захватывать рынок. И на этом теряют деньги. Ну как, они же привлекают деньги? Значит нужны, иначе умрут!

Как я писал много раз и поправлял людей в комментариях — сам инференс очень прибыльный, с наценками в сотни процентов. И это с учётом того, что у Nvidia за чипа наценка тоже в сотни процентов, представляете?

Epoch.AI подошли к вопросу систематически, собрали доступные данные по тратам и выручке OpenAI в разных категориях и постарались оценить: зарабатывают ли компании, и сколько?

Для этого они выбрали «поколение GPT-5» — все модели, которые были доступны с релиза GPT-5 в августе до декабря, когда на смену пришла GPT-5.2 (потому что она, вероятно, является новой базовой моделью).

Перед тем как читать дальше: у всех значений есть достаточно широкие доверительные интервалы, поэтому выводы могут быть немного другие, но не кардинально.

За озвученный период OpenAI получили примерно $6.1B выручки и потратили $3.2B на мощности для инференса. И это с учётом примерно 750 миллионов бесплатных пользователей, которые не принесли НИ-ЧЕ-ГО.

Таким образом, валовая прибыль составляет примерно 48%.

Теперь к операционной выручке: для этого в затраты нужно добавить зарплаты ($1.4B) и расходы на маркетинг + продажи ($2.2B), то получается убыток, -20% (доверительный интервал от -50% до 5%).

К этому сверху можно добавить затраты на исследования: зарплаты, данные, мощности на эксперименты и финальную тренировку. Тут оценки делать ещё сложнее, так как разрабатывается много моделей, какие-то наработки будут пользоваться дальше, какие-то вообще делали для Sora. Но Epoch.AI приходят к цифре $4.9B.

Таким образом, за 4 месяца существования GPT-5 скорее всего не смогла окупить свой полный цикл разработки. В большей степени это продиктовано тем, что выпустили GPT-5.2, и модель устарела.

Ситуация точно была другой для GPT-4o, которая была с нами около полутора лет — да, она обновлялась, но скорее всего на это выделяли меньше ресурсов (в том числе людских).

В быстрорастущих технологических секторах инвесторы, как правило, готовы мириться с убытками сегодня в обмен на большую прибыль в будущем. Поэтому, если модели ИИ уже покрывают большую часть затрат на себя, это говорит о благоприятных финансовых перспективах для ИИ-компаний.

Поэтому выводы очевидны: сам запуск моделей супер-выгодный. Чтобы оставаться в гонке, нужно растить затраты на RND (что делают все), и после насыщения выйти на плато и начать зарабатывать.

Смогут ли дотянуть те или иные игроки? Узнаем в 2029-2030м!

Читать полностью…

Сиолошная

«Да лан, чё мелочиться?» —  подумали в Epoch.AI и вместо FrontierMath Tier 5 выпустили FrontierMath OpenProblems. Как следует из названия, моделям здесь предстоит решить открытые задачи из области исследовательской математики, которые профессиональные математики пытались решить, но не смогли.

Для облегчения оценки включили только те задачи, для которых предложенные решения могут быть проверены автоматически (что заведомо ограничивает набор). Всего сейчас 14 задач, но открыта форма для заявок на добавление, и, надеюсь, она не пройдет мимо математиков.

Задачи охватывают широкий спектр математических дисциплин. Пилотный набор задач имеет уклон в сторону комбинаторики и теории чисел, где больше всего задач, поддающихся автоматической проверке.

Математиков, предоставивших задачи, опросили оценить, сколько математиков работали над проблемой и сколько времени, по их прикидкам, потребуется для решения людьми. Эти данные вы можете найти на картинке — есть задачи, которые оценили в 3-10 лет 😅

Удачи OpenAI, Google и другим компаниям. Ждём прорывов — сейчас модели не решают ни одну из задач.

Читать полностью…

Сиолошная

Вчера Alex Honnold залезть на Taipei 101 (500+ метровое здание) БЕЗ СТРАХОВКИ не смог — была непогода, дождь, поэтому перенесли на сегодня.

И полчаса назад восхождение закончилось успехом — на всё про всё ушло чуть больше 91 минуты. Выгрузил для вас три видео (из начала, ближе к концу и самый финал).

Во втором видео присмотритесь, чем он держится 🥺

Читать полностью…

Сиолошная

🍿 Санта-Барбара в стартапе Миры Мураты: подробности про уход сооснователей Thinking Machines

В стартапе Thinking Machines бывшей CTO OpenAI Миры Мурати (слева на фото) на днях случился скандал. Ушли два сооснователя и еще несколько сотрудников. Причем версии причин ухода разные. Сейчас появляются подробности истории, и там, конечно, полная Санта-Барбара.

Немного предыстории. В конце 2024-го года Мира Мурати прихватила из OpenAI пару десятков людей и пошла делать свой стартап Thinking Machines. Проект уже успел поднять $2 млрд по оценке $12 млрд. Но продукт пока один — Tinker. Это штука, упрощающая настройку AI-моделей с открытым исходным кодом.

В октябре Марк Цукерберг перекупил одного из сооснователей Эндрю Таллока. Он хотел еще купить и весь Thinking Machines, но не получилось. А на днях обратно в OpenAI ушли Баррет Зоф (справа на фото) и Люк Метц. А за ними еще пара человек. Теперь в Thinking Machines осталось трое сооснователей, включая Мурати.

Wired со ссылкой на источник пишет, что Баррет Зоф вроде как был уволен за неэтичное поведение. И в Thinking Machines были подозрения, что он мог раскрыть конфиденциальную информацию конкурентам. Wall Street Journal пишет, что сотрудникам Мурати сказала, что у Зофа было много проблем с работой, доверием и поведением.

Но там не все так просто. Зоф заявил WSJ, что компания не предъявляла ему ни по поводу работу, ни по поводу неэтичного поведения. А уволили его потому, что он выразил желание уйти из компании. Вопрос в том, почему он решил уйти.

Как пишет WSJ, в прошлом году Зоф схантил с OpenAI знакомую. Причем, как утверждает Зоф, ее схантить хотели многие сотрудники Thinking Machines, включая Мурати. То есть это не только его прихоть.

Но летом 2025-го Мурати начала подозревать, что она не просто знакомая Зофа — что у них отношения. Зоф был CTO. И хотя знакомая напрямую ему не подчинялась, но все равно была формально подчиненной. Мурати спросила у них, но оба пошли в отказ.

А потом все-таки сознались, отношения у них были еще со времен OpenAI. Но почти сразу девушка уволилась из Thinking Machines и вернулась в OpenAI. Но у Зофа с ней что-то не заладилось. Он сказал Мурати, что девушка манипулировала им, чтобы завязать отношения. И после этого Зоф ушел в отпуск на месяц.

А когда Зоф вернулся, то его обязанности подсократили. Но он вроде был с этим ок — мол, надо въехать в дела. Но в Thinking Machines стали замечать, что его эффективность снижается, в Slack от него стало меньше активности. Зоф объясняет это тем, что работал по индивидуальной программе, а в ноябре и декабре отсутствовал из-за болезни и смерти в семье.

На той неделе Мурати хотела поговорить тет-а-тет с Зофом в том числе про его продуктивность. А ее саму позвали на встречу Зоф, Люк Метц и еще один сотрудник.

Они сказали Мурати, что недовольны тем, куда двигается компания. Причем уже несколько месяцев недовольны. И рассматривают возможность уйти из компании — в последние недели они вели переговоры с Meta и OpenAI. И, говорят, давай окончательный голос по техническим вопросам будет не у тебя, Мира, а у Зофа. В ответ Мурати выразила недовольство продуктивностью Зофа в последние месяцы.

Через день Мурати уволила Зофа. А он, Метц и еще один товарищ за несколько часов окончательно договорились с OpenAI.

В этой истории есть еще нюанс. Последние месяцы Мурати пытается поднять инвестиции по оценке $50 млрд. И журналист Алекс Хит в своем блоге Sources пишет, что с привлечением раунда у Мурати трудности. У компании вроде как нет четкой продуктовой или бизнес-стратегии.

А теперь на это все накладывается уход еще двоих сооснователей, причем довольно скандальный. И вряд ли это облегчит Мурати поиск денег.

@TheEdinorogBlog — тот самый канал про стартапы🦄

Читать полностью…

Сиолошная

Помню где-то услышал шутку:
— Так у меня доступ ко всему интернету есть, все сайты.
— В смысле ты имеешь в виду все сайты до которых дотянулся Google?

Мораль была в том, что нет какого-то единого списка сайтов (а раньше были! когда интернет крохотный был), нельзя посмотреть всё в сети. Вы получаете доступ в интернет по большей части через поисковик (даже если какой-то сайт вам посоветовали знакомые — откуда они узнали? а их друзья?) и сохранённые ссылки и сайты.

В ноябре '25 CEO Cloudflare (это которые постоянно ложатся, а у вас потом интернет не открывается) загадал загадку: насколько больше веб-страниц видит Googlebot по сравнению с GPTBot (OpenAI), Bingbot (Microsoft) и Claudebot (Anthropic)?

Мне было очень интересно, и вот я наткнулся на ответ:

На каждую страницу, которую видит бот OpenAI, Google видит 3.2 страницы. Этот коэффициент равен 4.8 для Microsoft и Anthropic, а остальные идут в списке ещё ниже.

То есть даже несмотря на невероятную работу, проделанную инженерами OpenAI, они всё равно имеют доступ к примерно в 3 раза меньшему количеству веб-страниц.

Сложно сказать, насколько это критично — в хвосте этого распределения данные могут быть не самые качественные или вообще ненужные; плюс на этих страницах может быть банально меньше информации, и меньше её плотносить.

Читать полностью…

Сиолошная

OpenAI в целом и Sama в частности инвестировали в только что созданную Merge Labs — компанию, сфокусированную на создании интерфейса для подключения мозга к компьютеру (BCI). Вместе с ними, кстати, денег вкинул и Габен 💪

Компания будет являться прямым конкурентом Neuralink от Elon Musk, но ставка делается на кардинально другой подход, который потребует существенно меньше инвазивных процедур. Сейчас Neuralink сверлят в черепе дырку и устанавливают маленький имплант с электродами, погружённными в мозг на несколько миллиметров.

Такой чип охватывает лишь одну зону мозга, но в идеале сигнал нужно считывать из разных. Что же будут делать Merge Labs?

Основатели сообщили, что на первом этапе их исследования будут сосредоточены на использовании ультразвуковой технологии для отслеживания активности нейронов в сочетании с белками, способными усиливать нейронные сигналы.

Цель — доставить специальные белки в мозг и интегрировать их с нейронами. Использование свойств этих белков заставит нейроны генерировать более четкий сигнал для считывания ультразвуком.

Такие белки называются молекулярные репортеры, они "сообщают" о действиях клетки таким образом, что ультразвук может зафиксировать сигнал с гораздо более высокой точностью.

При этом в лаборатории пока отказываются говорить о том, как именно эти белки будут попадать в мозг. Можно предположить, что для доставки генетических элементов к нейронам будет использоваться метод генной терапии 😳

Желаем ребятам удачи, будем следить за ними раз в год.

Если вам интересно узнать чуть больше — вот тут есть свежее интервью с одним из ко-фаундеров.

Читать полностью…
Subscribe to a channel