seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

71211

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq.

Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодействуют вычислительные юниты. Но она очень дорогая, и её мало — видеокарта GB200, использующаяся в датацентрах, имеет всего 126 МегаБайт SRAM (и это на 2 чипа внутри, то есть 63 МБ/чип).

(это было одной из проблем Groq — они не могли запускать очень большие модели, SRAM не хватало)

Теперь модуль Groq 3 LPX будет частью серверных стоек, которые предлагает Nvidia — специально для сценариев, где нужна сверх-быстрая генерация. Nvidia рассчитывает, что современные GPT (якобы размером в 2 триллиона параметров) смогут бегать на скорости в 400 токенов в секунду.

Один блок с чипами в стойке (на второй картинке) будет иметь 128 GB SRAM – то есть огромное количество, по сравнению с обычными картами. Но этого всё равно не хватит, чтобы считать всё — поэтому Nvidia предлагает считать там только FFN/MOE, а Attention продолжать на картах Nvidia (картинка 4).

О, и на последней картинке — Nvidia планирует сделать чип архитектуры Vera Rubin (следующее поколение, уже представлено, но ещё не продаётся) специально для космоса, с вниманием к выделяемому теплу.

🚀 🚀 🚀

Читать полностью…

Сиолошная

Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс.

Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.

Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).

Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.

Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.

Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).

Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.

Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.

Читать полностью…

Сиолошная

Помните несостоявшуюся рекламу наушников от OpenAI? Которая вроде как и не их, но с высоким уровнем продакшена, и за продвижение которой кто-то даже заплатил?

Наушники "случайно" засветились снова — на CDO (Chief Design Officer) America (да, Америки) и со-основателе AirBnb Joe Gebbia, который сидел пил кофе где-то в Сан-Франциско.

После этого я на ~85% уверен, что это действительно девайс OpenAI и что они выбрали такую тактику продвижения, чтобы люди обсуждали.

Читать полностью…

Сиолошная

Мы победили. Не будет дата-центра. И им придётся построить парк.

— 200 тысяч лайков за чуть более чем сутки.

Интересно почему же ДЦ хотят строить на орбите 🤔

Комментарий из твиттера:
200 тысяч лайков за радость от блокировки вычислительной инфраструктуры прямо во время гонки за AGI.

Ни один парк в истории человечества не будет иметь значения, если вы проиграете следующие 1000 лет цивилизационного развития стране, которая создаст его первой.

Кстати, именно так и выглядит упадок.
Вам даже не нужны войны — достаточно лишь людей, которые ликуют, разрушая и фундамент, и будущее своей собственной культуры (и при этом чувствуют свою абсолютную моральную правоту).

Читать полностью…

Сиолошная

Grok 4.20, обещаемый Elon Musk с августа прошлого года, появился в бете на https://grok.com/ .

При обработке вашего запроса используется до 4 агентов, которые общаются между собой; одному из них назначается роль лидера.

Думаю, что с точки зрения качества эти агенты не должны существенно накидывать по отношению к одной длинной цепочке рассуждений, но могут потенциально уменьшать время до получения ответа за счёт параллельных рассуждений и поиска.

Читать полностью…

Сиолошная

Так совпало, что и я на макбуке долго не обновлял операционную систему, и на андроид новый клиент телеграма не приходит. И вот на позапрошлой неделе обновились оба.

Теперь полностью могу прочувствовать это:

Читать полностью…

Сиолошная

Интересный факт. Суммарные капитальные расходы Амазон, Гугл и Мета на 2026 год - около $500 млрд. С Майкрософтом - порядка $650 млрд. И это не прогнозы аналитиков, а цифры с последних отчетов компаний.

Для масштаба. Это 2/3 военного бюджета США, а весь военный бюджет Китая в 2025 - $249 млрд официально (реально ближе к $295 млрд). Три техкомпании потратят на инфраструктуру вдвое больше, чем вторая военная держава мира тратит на всю армию.

Все страны НАТО, исключая США, потратят на оборону около $607 млрд в 2025. Четверка техгигантов по расходам сопоставима со всем европейским военным блоком.

Причем у НАТО эти $607 млрд размазаны по 31 стране на зарплаты, технику, операции, базы. У техкомпаний основная часть идет в одну точку - чипы, дата-центры, электричество. Такой концентрации ресурсов в частном секторе не было никогда.

Год назад $250 млрд совокупных расходов казались ненормальными (ну как минимум мне). В 2025 стало $410 млрд. На 2026 - $650 млрд, плюс 60% за год. При этом CEO Гугла на звонке с инвесторами спросили "что не дает вам спать" - вычислительные мощности. Им мало.

Одни уже покупают электричество у ядерных реакторов. Другие скупают участки рядом с электростанциями. Война за чипы, энергию и землю под дата-центры - это не сценарий из киберпанка. Это банально текущие фин отчеты.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=n1E9IZfvGMA

Читать полностью…

Сиолошная

Расчехляйте подписки на $200 — сегодня Codex начёт генерировать со скоростью 300-500 токенов в секунду 🚀🚀🚀

Читать полностью…

Сиолошная

По поводу недавних экспериментов Cursor и Anthropic с запуском десятков-сотен агентов на неделю — как всегда вспоминаю, что не все люди воспринимают мир одинаково, и зачастую сложно посмотреть на мир чужими глазами. Поэтому нужно писать вот такие вот объяснения.

Вау-эффект эксперименты вызывают по разным причинам — например, кто-то думает, что вау в том, что смогли сделать вот конкретно эти агенты с конкретно этими задачами. Кто-то справедливо замечает, что браузер на самом деле не с нуля написан, что комплиятор медленный, что качество кода не лучшее, и так далее — и потому считает, что никакого "вау" нет.

Но это вообще не то направление, в котором стоит смотреть. Главная причина для моего вау — это что модели текущего поколения без специальной тренировки работы роем агентов на задачи длительностью в 7 дней и больше уже могут показывать какой-то результат. А как мы знаем из последних полутора лет развития RL — как только появляется какой-то минимальный результат, то его можно в короткие сроки существенно прокачать, условно от 11% до 85%.

(я уверен, что фронтир-модели не учились или учились очень мало в таком формате)

Есть куча низковисящих фруктов, которые помогают делать прогресс по проблемным направлениям, и есть большое количество мощностей для заливания в задачи.

Как полтора года назад казалось, что модели еле-еле решают какие-то серьезные олимпиадные задачи, а теперь справляются с проблемами исследовательского уровня, так будет и тут. Через год рой агентов / команды субагентов / кто как назовёт будет гораздо способнее.

Однако прогресс тут может быть чуть более медленным, чем с обычными рассуждениями, так как каждая отдельная задача банально занимает много времени, несколько дней или неделю. Тут очень пригодятся методы увеличения количества сигнала из каждого роллаута, и, наверное, мы скоро увидим статьи по этой теме.

Читать полностью…

Сиолошная

Пока люди в твиттере хайпуют по бесполезному редиту для ИИ-агентов, а я дописываю 8-ую тысячу слов для следующего лонга — Anthropic отчитались, что марсоход проехал 400 метров под контролем Claude: https://www.anthropic.com/features/claude-on-mars

(детали будут после лонга)

Читать полностью…

Сиолошная

Ждать долго не пришлось: автомобиль Waymo сбил ребёнка около школы в Калифорнии.

Waymo заявили, что ее роботакси сбило ребенка на скорости 10 километров в час после резкого торможения с примерно 27 километров в час. Молодой пешеход «внезапно выскочил на проезжую часть из-за высокого внедорожника, двигаясь прямо на пути нашего автомобиля», — говорится в сообщении компании в блоге. Waymo заявила, что ее автомобиль «немедленно обнаружил человека, как только он начал выходить из-за остановившегося транспортного средства».

Ребёнок сразу же смог встать и отойти на тротуар, а такси вызвало 911.

Waymo утверждает, что по результатам их моделирования выходит, что «внимательный водитель в той же ситуации столкнулся бы с пешеходом на скорости приблизительно 22 километра в час». Хоть деталей этой аналитики не опубликовано, в целом поверить, что алгоритм сработал лучше человека не трудно.

Посмотрим, что скажет полиция, и как это повлияет на регуляции, а самое главное человеческое отношение. Каждый такой кейс может или поспособствовать ускорению внедрения самоходных такси, или откинуть их назад на годы.

Читать полностью…

Сиолошная

Существует заблуждение — и я удивлён, насколько распространённое — что инференс моделей убыточен, и что компании его субсидируют, чтобы захватывать рынок. И на этом теряют деньги. Ну как, они же привлекают деньги? Значит нужны, иначе умрут!

Как я писал много раз и поправлял людей в комментариях — сам инференс очень прибыльный, с наценками в сотни процентов. И это с учётом того, что у Nvidia за чипа наценка тоже в сотни процентов, представляете?

Epoch.AI подошли к вопросу систематически, собрали доступные данные по тратам и выручке OpenAI в разных категориях и постарались оценить: зарабатывают ли компании, и сколько?

Для этого они выбрали «поколение GPT-5» — все модели, которые были доступны с релиза GPT-5 в августе до декабря, когда на смену пришла GPT-5.2 (потому что она, вероятно, является новой базовой моделью).

Перед тем как читать дальше: у всех значений есть достаточно широкие доверительные интервалы, поэтому выводы могут быть немного другие, но не кардинально.

За озвученный период OpenAI получили примерно $6.1B выручки и потратили $3.2B на мощности для инференса. И это с учётом примерно 750 миллионов бесплатных пользователей, которые не принесли НИ-ЧЕ-ГО.

Таким образом, валовая прибыль составляет примерно 48%.

Теперь к операционной выручке: для этого в затраты нужно добавить зарплаты ($1.4B) и расходы на маркетинг + продажи ($2.2B), то получается убыток, -20% (доверительный интервал от -50% до 5%).

К этому сверху можно добавить затраты на исследования: зарплаты, данные, мощности на эксперименты и финальную тренировку. Тут оценки делать ещё сложнее, так как разрабатывается много моделей, какие-то наработки будут пользоваться дальше, какие-то вообще делали для Sora. Но Epoch.AI приходят к цифре $4.9B.

Таким образом, за 4 месяца существования GPT-5 скорее всего не смогла окупить свой полный цикл разработки. В большей степени это продиктовано тем, что выпустили GPT-5.2, и модель устарела.

Ситуация точно была другой для GPT-4o, которая была с нами около полутора лет — да, она обновлялась, но скорее всего на это выделяли меньше ресурсов (в том числе людских).

В быстрорастущих технологических секторах инвесторы, как правило, готовы мириться с убытками сегодня в обмен на большую прибыль в будущем. Поэтому, если модели ИИ уже покрывают большую часть затрат на себя, это говорит о благоприятных финансовых перспективах для ИИ-компаний.

Поэтому выводы очевидны: сам запуск моделей супер-выгодный. Чтобы оставаться в гонке, нужно растить затраты на RND (что делают все), и после насыщения выйти на плато и начать зарабатывать.

Смогут ли дотянуть те или иные игроки? Узнаем в 2029-2030м!

Читать полностью…

Сиолошная

«Да лан, чё мелочиться?» —  подумали в Epoch.AI и вместо FrontierMath Tier 5 выпустили FrontierMath OpenProblems. Как следует из названия, моделям здесь предстоит решить открытые задачи из области исследовательской математики, которые профессиональные математики пытались решить, но не смогли.

Для облегчения оценки включили только те задачи, для которых предложенные решения могут быть проверены автоматически (что заведомо ограничивает набор). Всего сейчас 14 задач, но открыта форма для заявок на добавление, и, надеюсь, она не пройдет мимо математиков.

Задачи охватывают широкий спектр математических дисциплин. Пилотный набор задач имеет уклон в сторону комбинаторики и теории чисел, где больше всего задач, поддающихся автоматической проверке.

Математиков, предоставивших задачи, опросили оценить, сколько математиков работали над проблемой и сколько времени, по их прикидкам, потребуется для решения людьми. Эти данные вы можете найти на картинке — есть задачи, которые оценили в 3-10 лет 😅

Удачи OpenAI, Google и другим компаниям. Ждём прорывов — сейчас модели не решают ни одну из задач.

Читать полностью…

Сиолошная

Вчера Alex Honnold залезть на Taipei 101 (500+ метровое здание) БЕЗ СТРАХОВКИ не смог — была непогода, дождь, поэтому перенесли на сегодня.

И полчаса назад восхождение закончилось успехом — на всё про всё ушло чуть больше 91 минуты. Выгрузил для вас три видео (из начала, ближе к концу и самый финал).

Во втором видео присмотритесь, чем он держится 🥺

Читать полностью…

Сиолошная

Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh: https://www.youtube.com/watch?v=mDG_Hx3BSUE

Какие темы обсудят:
00:00:00 – Почему H100 сегодня стоит дороже, чем 3 года назад
00:24:52 – Nvidia заранее забронировала мощности TSMC; Google сталкивается с дефицитом
00:34:34 – К 2030 году ASML станет главным ограничением для масштабирования вычислительных мощностей ИИ
00:56:06 – Разве нельзя просто использовать старые фабрики TSMC?
01:05:56 – Когда Китай обойдет Запад по масштабам производства полупроводников?
01:16:20 – Надвигающийся колоссальный дефицит памяти
01:42:53 – Увеличение энергетических мощностей в США не станет проблемой
01:55:03 – ДЦ в космосе не появятся в этом десятилетии
02:14:26 – Почему так мало хедж-фондов делают ставку на AGI?
02:18:49 – Вытеснит ли TSMC компанию Apple с техпроцесса N2?
02:24:35 – Роботы и риски, связанные с Тайванем

Читать полностью…

Сиолошная

Одна из крупнейших венчурных фирм a16z выпустила отчёт по AI-индустрии с большим количеством графиков. Я его полистал и нашёл пару интересных моментов:

1. Приложение Sora c генерацией видео еще живо и даже растёт — дневная аудитория чуть больше 3 миллионов пользователей. Солидно само по себе, но на фоне замашек OpenAI цифра достаточно скромная.

2 и 3 — доля ChatGPT по сессиям. С ростом рынка и появлением новых продуктов доля падает, но остаётся солидной. Количество времени, проведенном в ChatGPT, в 8 раз выше, чем у топ-2 игрока.

Читать полностью…

Сиолошная

А ведь менее чем неделю назад на конференции в Индии эти двое не могли взяться за руки

Читать полностью…

Сиолошная

3.5 месяца назад после выхода Kimi K2 Thinking, как и после любого другого релиза, началась волна комментариев в духе «Да всё, да Китай догнал, да эти модели уже на уровне не то что OpenAI а Anthropic».

Как и в случае с R1 vs o1, я считаю, что это бред. Мой твит с хот-тейком про превращение паритета на бумаге в разрыв в реальности набрал под 80 тысяч просмотров, поэтому я решил вернуться и проверить, был ли я прав.

Остают ли модели от фронтира, и если да, то почему? Об этом читайте в новом блогпосте: ikot.blog/the-illusion-of-parity

Читать полностью…

Сиолошная

Считаю, что тут очень важная мысль - как

Читать полностью…

Сиолошная

Посмотрел вчера это интервью, очень понравилось, особенно часть с 00:58:49 про инвестиции в мощности и выход на прибыль. В целом Dario достаточно хорошо ответил на заковыристые вопросы, очень хотелось бы услышать ответы на ровно них же от Sama (хотя уверен, что они будут такими же, но с более агрессивными целями).

Если вкратце, то:
— Dario верит, что «страна гениев в датацентре» появится в течении 3-4 лет.
— Почти наверняка индустрия AI (3-4-5 ведущих игроков) будет иметь выручку больше триллиона долларов в 2030-м. 3 года на «страну гениев в датацентре», 2 года на диффузию этого в экономику от текущего момента.
— После этого ВВП может начать расти на 10-20% в год. Компании и дальше будут наращивать мощности, инвестируя уже триллионы долларов, пока не достигнут некоторой точки равновесия, где дальнейшие вливания уже дают очень маленькую отдачу. Эквилибриум задаётся тем, сколько всего чипов будет производиться, и какую долю в ВВП будет составлять выручка компаний.
— Dario снова повторил предсказание про то, что модели через год смогут делать 90% работы инженеров-разработчиков (не только написания кода).
— Подтвердил / прокомментировал почти все слухи, которые мы получали из утечек презентаций для инвесторов касательно маржинальности, планов по росту выручки, выходу на прибыль.
— Выход на прибыль в 2028-м пока обусловлен тем, сколько спроса они видят, сколько мощностей нужно на исследования и сколько чипов смогут купить.
— Но из всех ответов Dario я скорее укрепился во мнении, что OpenAI имеют более рисковый и при этом реалистичный план; Anthropic уже двигали год выхода на прибыль, и это может повториться снова.

Dario несколько раз подчеркнул, что их инвестиции в мощности не настолько агрессивны, так как если они ошибаются хотя бы на год, то компания обанкротится. Я с этим не согласен, мне кажется он лукавит — ну или это верно для его компании, но не OpenAI 🤷‍♂️

А мой твит с этим кадром из подкаста как-то набрал полмиллиона просмотров 😳

Читать полностью…

Сиолошная

Картинка фотошоп, а твит выдуман:


Вчера вечером я встречался с Andrew Strominger и Alex Lupsasca, двумя ведущими физиками мира.

Они только что опубликовали статью в соавторстве с OpenAI, и, по-моему, это уже уровень ASI (искусственного суперинтеллекта).

Andrew, один из создателей теории струн, рассказал мне, что еще год назад он сомневался, что ИИ может быть хоть сколько-нибудь полезен.

Год спустя, после серии взаимодействий с GPT 5.2 Pro, они отправили итоговый запрос внутренней модели, которая решила И доказала ранее нерешенную задачу квантовой теории поля… всего за 12 часов.

Модель сделала то, что не удавалось двум умнейшим людям в мире в их области. И когда мы общались, они были в диком восторге от того, что может ждать нас впереди.

Andrew сказал: «Я впервые вижу, чтобы ИИ решил задачу в моей области теоретической физики, которая, возможно, вообще не под силу человеку».

Они отметили: «Изменились две вещи: модель стала лучше, и мы поняли, как с ней разговаривать».

Он также добавил: «Учитывая последние достижения, я чувствую, что теперь большинству физиков, желающих оставаться на передовой научного прогресса, придется учиться общаться с ИИ. Год назад в этом не было необходимости».

ASI уже здесь, просто он распределен неравномерно.

Читать полностью…

Сиолошная

https://openai.com/index/introducing-gpt-5-3-codex-spark/

GPT-5.3 в чипы Cerebras не влезла, поэтому вместо неё маленькая версия GPT‑5.3-Codex-Spark. Целевая скорость — тысяча токенов в секунду. То есть большинство ваших задач будут отрабатывать за < 3 минут, особенно если нет долгого прогона тестов.

Модель не поддерживает картинки и имеет всего 128 тысяч токенов контекста.

Из хороших новостей — модель НЕ жрёт ваши лимиты, так что если ваши задачи относительно простые для фронтир-моделей — то Spark вам должен очень зайти.

Бенчмарки на картинках — как видно, еле-еле составляет конкуренцию Codex-5.3-low (минимальное время рассуждений), зато быстрее.

Доступно везде: Codex app, CLI, и VS Code плагин (нужно обновиться)

Читать полностью…

Сиолошная

Как может выглядеть группировка из 5 тысяч спутников на солнечно-синхронной орбите на высоте 500-2000 км. «Солнечно синхронная» означает, что спутники всегда расположены одной стороной к Солнцу, а значит смогут получать энергию.

(спутники тут намеренно сделаны более яркими, чем будут в реальности)

Ждём группировку спутников-датацентров к 2035?

Источник

Читать полностью…

Сиолошная

Быстроновости в понедельник:

— Начался февраль, ожидается много релизов моделек, от китайских GLM-5 до Claude Sonnet 4.6 / 5 (который может выйти вообще завтра, судя по некоторым утечкам) и GPT-5.3.

— При этом источники из Китая говорят, что DeepSeek уже не планирует выпуск V4 в конце февраля (к Лунному Новому году). Компания, кстати, получила одобрение от Партии на закупку H200 у Nvidia — ещё месяц назад был полный запрет, «должно быть всё своё родное», потом разрешили закупку для Tencent и Alibaba, и вот дошли до Китов.

— OpenAI пытается успеть провести IPO в 2026-м году, Anthropic и SpaceX тоже. Большой год для финансовых рынков. А ещё xAI может ещё объединиться с Tesla/SpaceX, так что формально тоже выйти на биржу. Мне не нравится идея выхода Anthropic и особенно OpenAI на IPO — потому что оценка публичных компаний сильно подвержена новостному фону и настроению инвесторов, которые зачастую ничего не понимают. «Пишут, что GPT-5 плохая? Сливаем акции».

— Некоторые пользователи заметили, что у них обновился ChatGPT DeepResearch. Он теперь по другому строит план и может выполнять несколько пунктов плана одновременно. Возможно, это означает, что под капотом будут работать 💫agent swarms — это когда агент не один, а несколько.

— Agent Swarms вообще рискует стать одной из горячих тем 2026-го, где от каждой компании мы увидим релиз, связанный с этим. А возможно и новые уровни подписок, за $500 или даже $1000-$2000. Совсем недавно вышла Kimi-K2.5, которая обучена аркестрировать «сотни» агентов, но как и любая ранняя технология это скорее концепт нежели что-то реально стоящее. Ждём больших игроков, которые покажут, как правильно.

— По информации WSJ, CEO Nvidia в приватных беседах выражал сомнение в «бизнес дисциплине» OpenAI, и что обсуждение инвестиций в раунде на $100B пока заморожено. Сам Jensen эту информацию опроверг, сказав, что они участвуют в следующем раунде и сделают рекордную для себя инвестицию. Посмотрим, как будет — за кусок пирога OpenAI с ним будут тягаться Softbank, Microsoft и Amazon, последний хочет вкинуть какие-то огромные деньги, $50B.

— Завтра после обеда лонг (не про файлы Эпштейна)

Читать полностью…

Сиолошная

АИ и обучение программированию

Антропик взяли 52 джунов, им нужно было решить задачку, затем ответить на тестовые вопросы связанные с темой задачки. В вопросах теста рисерчеры сделали упор на понимание кода, дебаг сообщений и обших концептов. Джунов разделили на две группы: одна могла использовать АИ инструменты во время решения задачи (но не во время теста), вторая - нет.

Что получилось:
• Группа без АИ лучше справилась с тестом. Эти джуны чаще ошибались при решении самой задачки, но эти ошибки и были их обучением. Чаще видишь сообщение с ошибкий -> начинаешь их лучше понимать.
• Участники, которые надеялись на АИ слишком сильно, хуже всех справились с тестом. Сюрприз-сюрприз, если ты делаешь себя прослойкой между консолью и АИ чатом - ты ничего не поймешь.
• Участники активно взаимодействующие с чатом (просили объяснить куски кода, задавали вопросы о коде и смысле сообщений о багах) справились с тестом лучше всех.

Вывод? Если аутсорсить trial and error из процесса обучения в АИ, то ничему не научишься.

https://www.anthropic.com/research/AI-assistance-coding-skills

Читать полностью…

Сиолошная

Обещал не писать про очередные раунды, но это довольно большие значения, чтобы пропустить.

Amazon ведёт переговоры об инвестициях до $50 млрд в OpenAI. Если сделка состоится, Amazon станет крупнейшим участником текущего раунда, в котором OpenAI привлекает до $100 млрд при оценке около $830 млрд.

Вчера были сообщения, что SoftBank планирует участие в этом раунде, вкладывая до 30 млрд долларов. Сразу видно, что там комментариев в чатах не читают и не подозревают, что это пузырь пузырем и скоро лопнет.

https://www.wsj.com/tech/ai/amazon-in-talks-to-invest-up-to-50-billion-in-openai-43191ba0?st=GjBnZ4&amp;reflink=desktopwebshare_permalink

Читать полностью…

Сиолошная

Картинки к посту (на последней Dario увидел, какой датацентр запланирован у OpenAI, и решил повысить прогноз).

Читать полностью…

Сиолошная

В ближайший месяц нас ждёт много обновлений Codex — серьёзного конкурента Claude Code. Пока никакой конкретики нет, так что будем гадать сами.

Сегодня должен состояться стрим с вопросами-ответами от команды (в полночь по Лондону и 3 ночи по Мск), где, возможно, состоятся какие-то анонсы.

Codex на выходных получил режим планирования — это когда он исследует код, но ничего не дописывает, и выдаёт один из способов решения вам на обсуждение. Такая фича уже давно есть в Claude Code.

Sama пишет про «новое поколение инструментов» — видимо, к Codex добавятся другие крупные фичи, как было /review или Aardvark, система анализа кода на уязвимости — кстати, появился у некоторых подписчиков ChatGPT Pro.

Sama как раз в твите говорит про кибербезопасность, так что логично предположить soft launch этого продукта.

Один из лидов Codex пишет, что «Команда работает с мощью тысячи агентов» — что может быть намёком на систему, аналогичную описанной командой Cursor, где агенты работали неделю над созданием браузера.

Не думаю, что OpenAI будет продавать эту фичу именно на масштабе недели, но вот сутки или «за выходные» — вполне. Мултьиагенты с ролями как раз недавно засветились в Codex — так что ждём.

Если накидывать из головы, то какие ещё фичи/продукты могут быть:
— детальнейшая проработка PRD (Product requirements document), чтобы вести разработку по ней
— проработка архитектуры перед имплементацией, от абстракций и раскладывания кода по модулям до определение фреймворков для работы
— ?

Читать полностью…

Сиолошная

Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки и лидом команды оптимизации — Tristan Hume.

Я всегда ценил творческие собеседования (а не банальные задания с LeetCode) и особенно домашние задания. Они действительно показывают, насколько команда заинтересована в работе.

Я рекомендую прочитать весь блогпост в оригинале, но вот несколько тезисов, которые мне понравились:

— Вся секция «Цели дизайна тестового задания»: и про реалистичность задания, и разработку сопроводительных инструментов для отладки, и про то, что, в идеале, можно привлекать AI-ассистента в помощь

— «Некоторые коллеги предлагали запретить использование ИИ при выполнении ДЗ. Я не хотел этого делать. Помимо сложностей с контролем, у меня было чувство: раз люди продолжают играть жизненно важную роль в нашей работе, я должен найти способ, чтобы они могли проявить себя вместе с ИИ — так же, как им придется делать это на работе. Я не хотел сдаваться и признавать, что люди имеют преимущество только в задачах длиннее нескольких часов».

— «Сегодня у инженеров по производительности в Anthropic всё ещё много работы, но она больше напоминает сложную отладку, системный дизайн, анализ производительности, поиск способов верификации корректности систем и того, как сделать код, написанный Claude, проще и элегантнее. К сожалению, эти вещи трудно объективно оценить без большого количества времени или общего контекста. Всегда было сложно делать собеседования, отражающие реальную работу, но теперь это сложнее, чем когда-либо».

— «Мне нужна была задача, где человеческое рассуждение могло бы превзойти огромную базу опыта модели: что-то, что находится достаточно далеко "вне распределения" (out of distribution). К сожалению, это противоречило моей цели сделать задачу похожей на реальную работу. Я вспомнил о самых необычных задачах по оптимизации, которые мне нравились, и остановился на играх Zachtronics. Эти игры-головоломки используют необычные, сильно ограниченные наборы инструкций, которые заставляют программировать нестандартными способами» (ждём ZachtronicsBench кстати)

— «В отличие от игр Zachtronics, я намеренно не предоставил никаких инструментов визуализации или отладки. Стартовый код проверяет только валидность решения. Создание инструментов отладки — это часть теста: вы можете либо вставить грамотные print-ы, либо попросить модель сгенерировать интерактивный отладчик за пару минут. Суждение о том, как инвестировать время в инструменты — это часть сигнала, который мы оцениваем»

— «Я вполне доволен новым тестовым заданием. Возможно, у него меньшая дисперсия результатов, чем у оригинала, потому что оно состоит из большего количества независимых подзадач [головоломок]. Ранние результаты многообещающие: оценки хорошо коррелируют с уровнем прошлых работ кандидатов, а один из моих самых способных коллег набрал больше баллов, чем любой кандидат до сих пор»

— «Мне всё ещё грустно, что пришлось отказаться от реализма и глубины оригинального задания. Но реализм может стать роскошью, которую мы больше не можем себе позволить. Оригинальное задание работало, потому что оно напоминало реальную работу. Замена работает, потому что она симулирует новую (невиданную ранее) работу»

Читать полностью…
Subscribe to a channel