seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

72643

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Я несколько раз, начиная с декабря, писал, что Anthropic закупает мало мощностей:

То есть CEO говорит, что их ставка настолько неамбициозна, что даже если будет самый плохой сценарий роста их выручки — они смогут расплатиться за сервера. Но это не то, чем быстрорастущие компании, вообще-то, должны козырять.


Но дела-то идут настолько отлично, что они перевыполнили позитивный (не реалистичный!) прогноз по росту выручки буквально за первые 3.5 месяца года.

Но теперь, похоже, в будущих интервью Dario не сможет кивать на OpenAI и говорить «ну так некоторые игроки на рынке делают безумные ставки и просто любят большие цифры» (это не шутка, это цитата) — за последнюю неделю он осознал, как сильно промахнулся, и теперь появилось аж 3 новости про наращивание мощностей: с CoreWeave и Broadcom/Google на поставку нескольких ГигаВатт чипов, и про рассмотрение возможности делать свои AI-чипы (которые OpenAI уже года 2 дизайнит).

В целом это означает, что мощности им достанутся по ценам выше, чем OpenAI, а значит, маржа будет меньше. Ещё одна такая промашка — и поставщиков мощностей, скажем, в 2028-м уже может не быть (все будут работать на OpenAI, Google да Китай).

What did Dario see? He's beginning to believe!

Читать полностью…

Сиолошная

Свежий материал от TheInforamtion: DeepSeek будут предоставлять свою модель DeepSeek V4 эксклюзивно на чипах Huawei, показывая самодостатчноссть Китая.

Главное:
— первоначально релиз был намечен на февраль, однако адаптация модели под чипы Huawei оказалась непростой задачей. Инженеры DeepSeek долгое время создавали и запускали свои модели, используя аппаратное и программное обеспечение от Nvidia, и многие инженерные оптимизации для уменьшения цены заточены именно под зелёных.

— Китайские технологические гиганты, в том числе Alibaba Group, ByteDance и Tencent Holdings, уже разместили крупные заказы на готовящиеся к выпуску чипы Huawei общим объемом в сотни тысяч штук.

— DeepSeek также разрабатывает два дополнительных варианта V4: каждый из них оптимизирован под разные задачи, и при этом оба созданы для работы на китайских чипах.

— Будут использоваться чипы Ascend 950PR, вычислительная мощность которых в 2,8 раза превосходит показатели Nvidia H20. Но чипы уступает H200. По данным компании Bernstein, Huawei сможет полностью преодолеть это отставание не раньше 2027 года, когда выйдет чип следующего поколения Ascend 960, чьи вычислительные возможности будут сопоставимы с чипами H200 (выпущенными...во втором квартале 2024-го).

— 950PR заточены на инференс, а в четвертом квартале Huawei планирует выпустить Ascend 950DT — чип, предназначенный для обучения.

Читать полностью…

Сиолошная

Федеральный судья в Сан-Франциско вынесла предварительный судебный запрет в пользу Anthropic, приостановив действие решений администрации Трампа о включении компании в чёрный список Пентагона и запрете на использование моделей Claude федеральными агентствами. Судья Рита Лин квалифицировала действия правительства как «классическое незаконное преследование по Первой поправке» — формулировка, которая задаёт тон всему дальнейшему разбирательству.

Судья Лин прямо назвала происходящее «оруэлловским» — и это не риторическая фигура, а сигнал о том, как суд оценивает правовую обоснованность позиции правительства. Это не окончательное решение — но обычно суды очень детально разбирают иск по сути, прежде чем выносить обеспечительное решение.

https://www.cnbc.com/2026/03/26/anthropic-pentagon-dod-claude-court-ruling.html

Читать полностью…

Сиолошная

Федеральный судья Рита Лин в ходе рассмотрения иска Anthropic к Пентагону заметила, что запрет администрации Трампа на использование госструктурами моделей Anthropic выглядит как наказание компании за то, что она публично раскрыла свой контрактный спор с Пентагоном. По словам судьи, действия правительства «похожи на попытку подорвать Anthropic» и потенциально нарушают Первую поправку. Решение по делу пока не вынесено, но судья запросила дополнительные доказательства.

https://www.wsj.com/tech/ai/u-s-governments-ban-on-anthropic-looks-like-punishment-attempt-judge-says-2ff98fe3

Читать полностью…

Сиолошная

Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh: https://www.youtube.com/watch?v=mDG_Hx3BSUE

Какие темы обсудят:
00:00:00 – Почему H100 сегодня стоит дороже, чем 3 года назад
00:24:52 – Nvidia заранее забронировала мощности TSMC; Google сталкивается с дефицитом
00:34:34 – К 2030 году ASML станет главным ограничением для масштабирования вычислительных мощностей ИИ
00:56:06 – Разве нельзя просто использовать старые фабрики TSMC?
01:05:56 – Когда Китай обойдет Запад по масштабам производства полупроводников?
01:16:20 – Надвигающийся колоссальный дефицит памяти
01:42:53 – Увеличение энергетических мощностей в США не станет проблемой
01:55:03 – ДЦ в космосе не появятся в этом десятилетии
02:14:26 – Почему так мало хедж-фондов делают ставку на AGI?
02:18:49 – Вытеснит ли TSMC компанию Apple с техпроцесса N2?
02:24:35 – Роботы и риски, связанные с Тайванем

Читать полностью…

Сиолошная

Одна из крупнейших венчурных фирм a16z выпустила отчёт по AI-индустрии с большим количеством графиков. Я его полистал и нашёл пару интересных моментов:

1. Приложение Sora c генерацией видео еще живо и даже растёт — дневная аудитория чуть больше 3 миллионов пользователей. Солидно само по себе, но на фоне замашек OpenAI цифра достаточно скромная.

2 и 3 — доля ChatGPT по сессиям. С ростом рынка и появлением новых продуктов доля падает, но остаётся солидной. Количество времени, проведенном в ChatGPT, в 8 раз выше, чем у топ-2 игрока.

Читать полностью…

Сиолошная

А ведь менее чем неделю назад на конференции в Индии эти двое не могли взяться за руки

Читать полностью…

Сиолошная

3.5 месяца назад после выхода Kimi K2 Thinking, как и после любого другого релиза, началась волна комментариев в духе «Да всё, да Китай догнал, да эти модели уже на уровне не то что OpenAI а Anthropic».

Как и в случае с R1 vs o1, я считаю, что это бред. Мой твит с хот-тейком про превращение паритета на бумаге в разрыв в реальности набрал под 80 тысяч просмотров, поэтому я решил вернуться и проверить, был ли я прав.

Остают ли модели от фронтира, и если да, то почему? Об этом читайте в новом блогпосте: ikot.blog/the-illusion-of-parity

Читать полностью…

Сиолошная

Считаю, что тут очень важная мысль - как

Читать полностью…

Сиолошная

Посмотрел вчера это интервью, очень понравилось, особенно часть с 00:58:49 про инвестиции в мощности и выход на прибыль. В целом Dario достаточно хорошо ответил на заковыристые вопросы, очень хотелось бы услышать ответы на ровно них же от Sama (хотя уверен, что они будут такими же, но с более агрессивными целями).

Если вкратце, то:
— Dario верит, что «страна гениев в датацентре» появится в течении 3-4 лет.
— Почти наверняка индустрия AI (3-4-5 ведущих игроков) будет иметь выручку больше триллиона долларов в 2030-м. 3 года на «страну гениев в датацентре», 2 года на диффузию этого в экономику от текущего момента.
— После этого ВВП может начать расти на 10-20% в год. Компании и дальше будут наращивать мощности, инвестируя уже триллионы долларов, пока не достигнут некоторой точки равновесия, где дальнейшие вливания уже дают очень маленькую отдачу. Эквилибриум задаётся тем, сколько всего чипов будет производиться, и какую долю в ВВП будет составлять выручка компаний.
— Dario снова повторил предсказание про то, что модели через год смогут делать 90% работы инженеров-разработчиков (не только написания кода).
— Подтвердил / прокомментировал почти все слухи, которые мы получали из утечек презентаций для инвесторов касательно маржинальности, планов по росту выручки, выходу на прибыль.
— Выход на прибыль в 2028-м пока обусловлен тем, сколько спроса они видят, сколько мощностей нужно на исследования и сколько чипов смогут купить.
— Но из всех ответов Dario я скорее укрепился во мнении, что OpenAI имеют более рисковый и при этом реалистичный план; Anthropic уже двигали год выхода на прибыль, и это может повториться снова.

Dario несколько раз подчеркнул, что их инвестиции в мощности не настолько агрессивны, так как если они ошибаются хотя бы на год, то компания обанкротится. Я с этим не согласен, мне кажется он лукавит — ну или это верно для его компании, но не OpenAI 🤷‍♂️

А мой твит с этим кадром из подкаста как-то набрал полмиллиона просмотров 😳

Читать полностью…

Сиолошная

Картинка фотошоп, а твит выдуман:


Вчера вечером я встречался с Andrew Strominger и Alex Lupsasca, двумя ведущими физиками мира.

Они только что опубликовали статью в соавторстве с OpenAI, и, по-моему, это уже уровень ASI (искусственного суперинтеллекта).

Andrew, один из создателей теории струн, рассказал мне, что еще год назад он сомневался, что ИИ может быть хоть сколько-нибудь полезен.

Год спустя, после серии взаимодействий с GPT 5.2 Pro, они отправили итоговый запрос внутренней модели, которая решила И доказала ранее нерешенную задачу квантовой теории поля… всего за 12 часов.

Модель сделала то, что не удавалось двум умнейшим людям в мире в их области. И когда мы общались, они были в диком восторге от того, что может ждать нас впереди.

Andrew сказал: «Я впервые вижу, чтобы ИИ решил задачу в моей области теоретической физики, которая, возможно, вообще не под силу человеку».

Они отметили: «Изменились две вещи: модель стала лучше, и мы поняли, как с ней разговаривать».

Он также добавил: «Учитывая последние достижения, я чувствую, что теперь большинству физиков, желающих оставаться на передовой научного прогресса, придется учиться общаться с ИИ. Год назад в этом не было необходимости».

ASI уже здесь, просто он распределен неравномерно.

Читать полностью…

Сиолошная

https://openai.com/index/introducing-gpt-5-3-codex-spark/

GPT-5.3 в чипы Cerebras не влезла, поэтому вместо неё маленькая версия GPT‑5.3-Codex-Spark. Целевая скорость — тысяча токенов в секунду. То есть большинство ваших задач будут отрабатывать за < 3 минут, особенно если нет долгого прогона тестов.

Модель не поддерживает картинки и имеет всего 128 тысяч токенов контекста.

Из хороших новостей — модель НЕ жрёт ваши лимиты, так что если ваши задачи относительно простые для фронтир-моделей — то Spark вам должен очень зайти.

Бенчмарки на картинках — как видно, еле-еле составляет конкуренцию Codex-5.3-low (минимальное время рассуждений), зато быстрее.

Доступно везде: Codex app, CLI, и VS Code плагин (нужно обновиться)

Читать полностью…

Сиолошная

Как может выглядеть группировка из 5 тысяч спутников на солнечно-синхронной орбите на высоте 500-2000 км. «Солнечно синхронная» означает, что спутники всегда расположены одной стороной к Солнцу, а значит смогут получать энергию.

(спутники тут намеренно сделаны более яркими, чем будут в реальности)

Ждём группировку спутников-датацентров к 2035?

Источник

Читать полностью…

Сиолошная

Быстроновости в понедельник:

— Начался февраль, ожидается много релизов моделек, от китайских GLM-5 до Claude Sonnet 4.6 / 5 (который может выйти вообще завтра, судя по некоторым утечкам) и GPT-5.3.

— При этом источники из Китая говорят, что DeepSeek уже не планирует выпуск V4 в конце февраля (к Лунному Новому году). Компания, кстати, получила одобрение от Партии на закупку H200 у Nvidia — ещё месяц назад был полный запрет, «должно быть всё своё родное», потом разрешили закупку для Tencent и Alibaba, и вот дошли до Китов.

— OpenAI пытается успеть провести IPO в 2026-м году, Anthropic и SpaceX тоже. Большой год для финансовых рынков. А ещё xAI может ещё объединиться с Tesla/SpaceX, так что формально тоже выйти на биржу. Мне не нравится идея выхода Anthropic и особенно OpenAI на IPO — потому что оценка публичных компаний сильно подвержена новостному фону и настроению инвесторов, которые зачастую ничего не понимают. «Пишут, что GPT-5 плохая? Сливаем акции».

— Некоторые пользователи заметили, что у них обновился ChatGPT DeepResearch. Он теперь по другому строит план и может выполнять несколько пунктов плана одновременно. Возможно, это означает, что под капотом будут работать 💫agent swarms — это когда агент не один, а несколько.

— Agent Swarms вообще рискует стать одной из горячих тем 2026-го, где от каждой компании мы увидим релиз, связанный с этим. А возможно и новые уровни подписок, за $500 или даже $1000-$2000. Совсем недавно вышла Kimi-K2.5, которая обучена аркестрировать «сотни» агентов, но как и любая ранняя технология это скорее концепт нежели что-то реально стоящее. Ждём больших игроков, которые покажут, как правильно.

— По информации WSJ, CEO Nvidia в приватных беседах выражал сомнение в «бизнес дисциплине» OpenAI, и что обсуждение инвестиций в раунде на $100B пока заморожено. Сам Jensen эту информацию опроверг, сказав, что они участвуют в следующем раунде и сделают рекордную для себя инвестицию. Посмотрим, как будет — за кусок пирога OpenAI с ним будут тягаться Softbank, Microsoft и Amazon, последний хочет вкинуть какие-то огромные деньги, $50B.

— Завтра после обеда лонг (не про файлы Эпштейна)

Читать полностью…

Сиолошная

АИ и обучение программированию

Антропик взяли 52 джунов, им нужно было решить задачку, затем ответить на тестовые вопросы связанные с темой задачки. В вопросах теста рисерчеры сделали упор на понимание кода, дебаг сообщений и обших концептов. Джунов разделили на две группы: одна могла использовать АИ инструменты во время решения задачи (но не во время теста), вторая - нет.

Что получилось:
• Группа без АИ лучше справилась с тестом. Эти джуны чаще ошибались при решении самой задачки, но эти ошибки и были их обучением. Чаще видишь сообщение с ошибкий -> начинаешь их лучше понимать.
• Участники, которые надеялись на АИ слишком сильно, хуже всех справились с тестом. Сюрприз-сюрприз, если ты делаешь себя прослойкой между консолью и АИ чатом - ты ничего не поймешь.
• Участники активно взаимодействующие с чатом (просили объяснить куски кода, задавали вопросы о коде и смысле сообщений о багах) справились с тестом лучше всех.

Вывод? Если аутсорсить trial and error из процесса обучения в АИ, то ничему не научишься.

https://www.anthropic.com/research/AI-assistance-coding-skills

Читать полностью…

Сиолошная

Meta запускает LLAMA-5 Muse Spark — первую модель от звёздной команды MSL, инженеры и исследователи которой привлекались миллиардными офферами. Бенчмарки вы можете видеть на картинке (bro thinks he's with big boys).

На второй картинке — мультиагентский режим Contemplating (как Deep Think или GPT Pro).

На третьей картинке — эффективность претрейна, выраженная через способность модели предсказывать текст по ходу обучения (увеличения количества пропущенных через модель мощностей).

На четвертой картинке — качество в HLE в зависимости от количества агентов и задержке для пользователя.

Про релиз модели не написано ничего, весов я бы пока не ждал (но когда-то их обещают выпустить). Статьи тоже нет. Будет закрытое API для выбранных компаний + модель уже появилась в AI-сервисах компании, и пообщаться с ней можно на https://meta.ai/

Alexandr Wang, chief ai officer, написал, что бОльшие модели уже тренируются и их стоит ждать скоро.

Читать полностью…

Сиолошная

В комментариях попросили запустить ChatGPT Pro с просьбой сделать аналитику того, каким мог бы быть показатель OpenAI, если бы они считали так же, как Anthropic. Мне тоже стало интересно.

Чат: ссылка

TLDR: ARR OpenAI на конец февраля была $25B, с корректировкой скорее $33-34B (я ожидал, что ниже — не думал, что Microsoft столько продаёт).

Как GPT сделала оценку — нашла пост TechCrunch с разбором утёкших финансовых документов Microsoft, где упоминались размеры выплат OpenAI (те самые 20% по договору). Потом сопоставила это с выручкой на даты в утечках, посчитала долю, и экстраполировала. Так что цифра может быть завышена, если выручка OpenAI росла быстрее (например, из-за роста популярности Codex, в то время как Microsoft, например, могли продавать просто API).

С другой стороны GPT говорит, что в утечках были только данные Azure, а не по всем возможным Microsoft-продуктам с OpenAI внутри, поэтому цифра может быть больше.

Почему я об этом вообще пишу? Мне кажется это важно для того, чтобы понимать, какой спрос на модели, сколько люди суммарно реально платят за ИИ-продукты. Получается, что у всего лишь двух игроков, OpenAI и Anthropic (вместе с их провайдерами) суммарный ARR уже перевалил за $55B. Но рост супер стремительный, и к концу года мы можем достаточно легко увидеть взятие планки в $100B.

Читать полностью…

Сиолошная

Представляете вот вы открываете последнюю статью Terence Tao, «Моцарта от мира математики», а там написано «Первое из этих предположений было доказано с помощью ChatGPT».

А представлять теперь и не надо 😭

В своём блоге автор даёт пояснение:
— Я так и не понял, как доказать это неравенство, но решил попытать счастья и дать его ChatGPT Pro <и он решил его>

Сомнений что без модели математик смог бы разобраться у меня нет; но теперь и решать самому не нужно, достаточно проверить и/или развить идеи, предложенные моделью. Terence последний год+ очень топит за верифицируемую математику — это когда все условия и доказательства записаны на специальном языке программирования, и компьютер проверяет решение, компилируя его. Если ошибок нет, то почти наверняка решение правильное.

И тогда остаётся лишь проверять, что исходные условия + вердикт формализованы правильно — и всё. Звучит чудесно? Да, но к сожалению ручная формализция на этом языке очень времязатратна, на сложные доказательства могут уходить месяцы. И тут тоже помогает AI — см. Gauss.

Читать полностью…

Сиолошная

Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq.

Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодействуют вычислительные юниты. Но она очень дорогая, и её мало — видеокарта GB200, использующаяся в датацентрах, имеет всего 126 МегаБайт SRAM (и это на 2 чипа внутри, то есть 63 МБ/чип).

(это было одной из проблем Groq — они не могли запускать очень большие модели, SRAM не хватало)

Теперь модуль Groq 3 LPX будет частью серверных стоек, которые предлагает Nvidia — специально для сценариев, где нужна сверх-быстрая генерация. Nvidia рассчитывает, что современные GPT (якобы размером в 2 триллиона параметров) смогут бегать на скорости в 400 токенов в секунду.

Один блок с чипами в стойке (на второй картинке) будет иметь 128 GB SRAM – то есть огромное количество, по сравнению с обычными картами. Но этого всё равно не хватит, чтобы считать всё — поэтому Nvidia предлагает считать там только FFN/MOE, а Attention продолжать на картах Nvidia (картинка 4).

О, и на последней картинке — Nvidia планирует сделать чип архитектуры Vera Rubin (следующее поколение, уже представлено, но ещё не продаётся) специально для космоса, с вниманием к выделяемому теплу.

🚀 🚀 🚀

Читать полностью…

Сиолошная

Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс.

Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.

Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).

Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.

Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.

Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).

Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.

Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.

Читать полностью…

Сиолошная

Помните несостоявшуюся рекламу наушников от OpenAI? Которая вроде как и не их, но с высоким уровнем продакшена, и за продвижение которой кто-то даже заплатил?

Наушники "случайно" засветились снова — на CDO (Chief Design Officer) America (да, Америки) и со-основателе AirBnb Joe Gebbia, который сидел пил кофе где-то в Сан-Франциско.

После этого я на ~85% уверен, что это действительно девайс OpenAI и что они выбрали такую тактику продвижения, чтобы люди обсуждали.

Читать полностью…

Сиолошная

Мы победили. Не будет дата-центра. И им придётся построить парк.

— 200 тысяч лайков за чуть более чем сутки.

Интересно почему же ДЦ хотят строить на орбите 🤔

Комментарий из твиттера:
200 тысяч лайков за радость от блокировки вычислительной инфраструктуры прямо во время гонки за AGI.

Ни один парк в истории человечества не будет иметь значения, если вы проиграете следующие 1000 лет цивилизационного развития стране, которая создаст его первой.

Кстати, именно так и выглядит упадок.
Вам даже не нужны войны — достаточно лишь людей, которые ликуют, разрушая и фундамент, и будущее своей собственной культуры (и при этом чувствуют свою абсолютную моральную правоту).

Читать полностью…

Сиолошная

Grok 4.20, обещаемый Elon Musk с августа прошлого года, появился в бете на https://grok.com/ .

При обработке вашего запроса используется до 4 агентов, которые общаются между собой; одному из них назначается роль лидера.

Думаю, что с точки зрения качества эти агенты не должны существенно накидывать по отношению к одной длинной цепочке рассуждений, но могут потенциально уменьшать время до получения ответа за счёт параллельных рассуждений и поиска.

Читать полностью…

Сиолошная

Так совпало, что и я на макбуке долго не обновлял операционную систему, и на андроид новый клиент телеграма не приходит. И вот на позапрошлой неделе обновились оба.

Теперь полностью могу прочувствовать это:

Читать полностью…

Сиолошная

Интересный факт. Суммарные капитальные расходы Амазон, Гугл и Мета на 2026 год - около $500 млрд. С Майкрософтом - порядка $650 млрд. И это не прогнозы аналитиков, а цифры с последних отчетов компаний.

Для масштаба. Это 2/3 военного бюджета США, а весь военный бюджет Китая в 2025 - $249 млрд официально (реально ближе к $295 млрд). Три техкомпании потратят на инфраструктуру вдвое больше, чем вторая военная держава мира тратит на всю армию.

Все страны НАТО, исключая США, потратят на оборону около $607 млрд в 2025. Четверка техгигантов по расходам сопоставима со всем европейским военным блоком.

Причем у НАТО эти $607 млрд размазаны по 31 стране на зарплаты, технику, операции, базы. У техкомпаний основная часть идет в одну точку - чипы, дата-центры, электричество. Такой концентрации ресурсов в частном секторе не было никогда.

Год назад $250 млрд совокупных расходов казались ненормальными (ну как минимум мне). В 2025 стало $410 млрд. На 2026 - $650 млрд, плюс 60% за год. При этом CEO Гугла на звонке с инвесторами спросили "что не дает вам спать" - вычислительные мощности. Им мало.

Одни уже покупают электричество у ядерных реакторов. Другие скупают участки рядом с электростанциями. Война за чипы, энергию и землю под дата-центры - это не сценарий из киберпанка. Это банально текущие фин отчеты.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=n1E9IZfvGMA

Читать полностью…

Сиолошная

Расчехляйте подписки на $200 — сегодня Codex начёт генерировать со скоростью 300-500 токенов в секунду 🚀🚀🚀

Читать полностью…

Сиолошная

По поводу недавних экспериментов Cursor и Anthropic с запуском десятков-сотен агентов на неделю — как всегда вспоминаю, что не все люди воспринимают мир одинаково, и зачастую сложно посмотреть на мир чужими глазами. Поэтому нужно писать вот такие вот объяснения.

Вау-эффект эксперименты вызывают по разным причинам — например, кто-то думает, что вау в том, что смогли сделать вот конкретно эти агенты с конкретно этими задачами. Кто-то справедливо замечает, что браузер на самом деле не с нуля написан, что комплиятор медленный, что качество кода не лучшее, и так далее — и потому считает, что никакого "вау" нет.

Но это вообще не то направление, в котором стоит смотреть. Главная причина для моего вау — это что модели текущего поколения без специальной тренировки работы роем агентов на задачи длительностью в 7 дней и больше уже могут показывать какой-то результат. А как мы знаем из последних полутора лет развития RL — как только появляется какой-то минимальный результат, то его можно в короткие сроки существенно прокачать, условно от 11% до 85%.

(я уверен, что фронтир-модели не учились или учились очень мало в таком формате)

Есть куча низковисящих фруктов, которые помогают делать прогресс по проблемным направлениям, и есть большое количество мощностей для заливания в задачи.

Как полтора года назад казалось, что модели еле-еле решают какие-то серьезные олимпиадные задачи, а теперь справляются с проблемами исследовательского уровня, так будет и тут. Через год рой агентов / команды субагентов / кто как назовёт будет гораздо способнее.

Однако прогресс тут может быть чуть более медленным, чем с обычными рассуждениями, так как каждая отдельная задача банально занимает много времени, несколько дней или неделю. Тут очень пригодятся методы увеличения количества сигнала из каждого роллаута, и, наверное, мы скоро увидим статьи по этой теме.

Читать полностью…

Сиолошная

Пока люди в твиттере хайпуют по бесполезному редиту для ИИ-агентов, а я дописываю 8-ую тысячу слов для следующего лонга — Anthropic отчитались, что марсоход проехал 400 метров под контролем Claude: https://www.anthropic.com/features/claude-on-mars

(детали будут после лонга)

Читать полностью…

Сиолошная

Ждать долго не пришлось: автомобиль Waymo сбил ребёнка около школы в Калифорнии.

Waymo заявили, что ее роботакси сбило ребенка на скорости 10 километров в час после резкого торможения с примерно 27 километров в час. Молодой пешеход «внезапно выскочил на проезжую часть из-за высокого внедорожника, двигаясь прямо на пути нашего автомобиля», — говорится в сообщении компании в блоге. Waymo заявила, что ее автомобиль «немедленно обнаружил человека, как только он начал выходить из-за остановившегося транспортного средства».

Ребёнок сразу же смог встать и отойти на тротуар, а такси вызвало 911.

Waymo утверждает, что по результатам их моделирования выходит, что «внимательный водитель в той же ситуации столкнулся бы с пешеходом на скорости приблизительно 22 километра в час». Хоть деталей этой аналитики не опубликовано, в целом поверить, что алгоритм сработал лучше человека не трудно.

Посмотрим, что скажет полиция, и как это повлияет на регуляции, а самое главное человеческое отношение. Каждый такой кейс может или поспособствовать ускорению внедрения самоходных такси, или откинуть их назад на годы.

Читать полностью…
Subscribe to a channel