seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

70256

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

23-го января один из самых известных скалолазов Alex Honnold предпримет попытку забраться на некогда самое высокое здание в мире, Taipei 101. Без страховки. Без натянутых снизу сеток или батутов. Мероприятие будет стримиться в прямом эфире на Netflix.

Насколько мне удалось нагуглить, на данный момент рекорд удерживает французский Человек-Паук Alain Robert, который облазил почти всё, что можно (но не везде без страховки). В 2009-м году он залез на одну из башен Петронас в Куала-Лумпур (сейчас 21-ое место в мире по высоте) на самый шпиль — 452 метра. На Дубайскую Бурж-Халифу он тоже лазил.

Taipei 101 (11-ое место в мире) выше, чем малайзийские башни — 508 метров.

Погуглив ещё узнал, что Alex Honnold в 2017-м залез на El Capitan — гору в Калифорнии и излюбленное место скалолазов. Заняло это 4 часа, высота — 884 метра. Почти любая ошибка привела бы к смерти. По истории подготовки и самому событию сняли документальный фильм Free Solo, выигравший несколько наград на разных фестивалях и у разных академий — включая Оскар.

Восхождение на El Capitan было описано как «одно из величайших спортивных достижений всех времен», с чем трудно не согласиться, согласитесь?

Немного удивлён самому себе, что пропустил это — прыжок Baumgartner'а из стратосферы я смотрел в школе на телефоне, а тут ничего не видел-не слышал. Но хоть вот восхождение на Taipei 101 не пропущу.

===

Ну и получается на смену RedBull пришли... Netflix 😳

Читать полностью…

Сиолошная

14й урок из 21 в блогпосте «21 Lessons From 14 Years at Google», попавшем в топ на HackerNews:

Если вы выигрываете в каждом споре, вы, вероятно, копите скрытое сопротивление.

Я научился с подозрением относиться к собственной уверенности. Когда я «побеждаю» слишком легко, обычно что-то не так. Люди перестают спорить не потому, что согласились с вами, а потому что просто махнули рукой. И это несогласие проявится позже — уже в работе, а не на встречах.

Для реальной синхронизации нужно больше времени. Нужно действительно вникать в чужие точки зрения, учитывать обратную связь и иногда публично менять свое мнение.

Мимолетное удовольствие от того, что ты прав, не идет ни в какое сравнение с долгосрочным успехом от работы с вовлеченной командой.


В целом понятный принцип, я его нативно понимал, но впервые услышал сформулированным от своего тимлида где-то месяцев 10 назад.

Отношения на работе не всегда спорятся, и где-то месяца 4 назад гуляя с другим коллегой обсуждали ситуацию на этот принцип. Я говорил коллеге, что с какими-то сотрудниками ловишь вайб, вы легко обсуждаете и перебираете идеи, можете договориться и прийти к пониманию.

С другими так не получается. Коллега спросил меня, как я думаю — почему? Я ответил, что есть люди, на которых банально жалко времени. Проработав с ними какое-то время я прихожу к мнению, что они 1) не заинтересованы 2) не будут тащить 3) не готовы сами отказываться от своих идей и признавать неправоту.

Как легко заметить по каналу, мне нравится объяснять и делиться чем-то. Это же я зачастую делаю в рабочей среде, и иногда шучу над своим незнанием или тем, как ошибаюсь. Рассказ другим и обучение помогают и самому лучше разобраться, понять, задавать правильные вопросы.

Но возвращаясь к причинам — каждый из трёх пунктов важен в разных ситуациях и компаниях по-разному, по крайней мере у меня такое ожидание, например, что в медленной большой корпорации незаинтересованных людей куда больше, чем в стартапах в высококонкурентных направлениях.

Синхронизация по ожиданиям и направлению работу действительно очень важна. Помню, давно для себя сформулировал, что alignment позволяет людям автономно принимать решения, которые приняли бы участники проекта, если бы собрались вместе на митинг.

Но так как у всех понимание ~одинаковое, то можно сэкономить время. Поэтому в синхронизацию нужно вкладывать время — чтобы сэкономить (но по выгодному курсу: если человек не будет принимать решений так и так, и чаще вставлять палки в колёса, то...?).

===

Иронично, что за минуту до того, как я начал писать пост, в рекомендации ютуба вылез ролик The Art Of Being Right из Доктора Хауса 🙂

Читать полностью…

Сиолошная

Там бостон динамикс выкатили нового Атласа.

Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы заменить кожаных на заводе.

Из интересного:

Робот сам топает к зарядке, сам вытаскивает севшую батарею и вставляет свежую. Никаких простоев, перекуров и походов в туалет. Работает 24/7.

Мозги от Google: Boston Dynamics запартнерились с Google DeepMind, чтобы впихнуть в Атласа годных нейронок. То есть робот будет не просто следовать скриптам, а реально "соображать" и быстро учиться новым задачам на ходу.

Немножко характеристик: поднимает до 50 кг груза, вытягивается на 2.3 метра в высоту, 56 степеней свободы (суставы крутятся как угодно, посмотрите, что эта скотина делает на видео), не боится воды и мороза.

Собирать серийные модели начинают прямо сейчас в Бостоне. Все поставки на 2026 год уже расписаны: первые партии уедут на заводы Hyundai и в Google DeepMind. Остальным придется ждать до 2027-го. Сейчас планируют строить завод, который будет штамповать 30000 таких юнитов в год.

Чо, заводчане, готовимся идти на рынок торговать луком. Ахахахах, конечно нет, потому что робот умный и за 30 тысяч рублей в месяц работать на заводе не будет даже он

тут подробнее

Читать полностью…

Сиолошная

Но сама работа очень детальна и рассматривает множество связей и эффектов от ускорения той или иной части исследований.

Читать тут: https://www.aifuturesmodel.com/#section-howdoesourmodelbehaveafterfullairdautomation

Читать полностью…

Сиолошная

Claude выращивает томат. 🍅

Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
У него есть датчики температуры, влажности воздуха и почвы, давления, уровня СО2, температуры листьев.
И он может управлять светом, подогревом почвы (через подогрев коврика), вентиляцией, подачей воды.
Посмотреть, что там сейчас и почитать лог можно тут: https://autoncorp.com/biodome/

Автономные теплицы все ближе!

Автор

Читать полностью…

Сиолошная

На ночь глядя под конец года Epoch.AI посчитали оценку GPT-5.2 Pro на FrontierMath Tier 4. Система решила 14 задач из 48.

Напомню, что Tier 4 появился полгода назад потому, что авторы поняли, что в первых трёх (выпущенных за полгода до этого 😳) тирах модели уже делают хороший прогресс. Tier 4 включает в себя задачи исследовательского уровня, с которыми сталкиваются профессиональные математики в ходе работы, в частности тех, которые ещё не опубликованы (поэтому модели не могли ни найти, ни обучиться на этом).

Всего за год модели сделали колоссальный прорыв в математике, и уже находятся на границе meaningful contribution в задачах исследовательского уровня. 🤩 каким же будет 2026-й, компании наперегонки будут заявлять о прорывах тут и там.

Читать полностью…

Сиолошная

Почему в большей части демонстраций робо-компаний их творения занимаются тем, что складывают футболки? Потому, что эта задача находится в «оптимальной зоне» возможностей доступной технологии — можно достичь высокой доли успеха в выглядящей сложной для роботов задаче.

Может показаться, что раз эти методы позволяют складывать белье, то они способны вообще на всё, но это не так. Benjie Holson, проработавший в Google X 8 лет и занимающий позицию VP of Engineering какого-то робо-стартаппа, пишет, что «может показаться, что раз наши методы позволяют обучить модели складывать белье, то они способны вообще на всё, но это не так. Нам придется изобрести новые подходы, чтобы системы стали по-настоящему универсальными и полезными».

В сентябре он предложил идею Олимпиады для гуманоидных роботов (после того, как посмотрел и не впечатлился World Humanoid Robot Games). Всего есть 5 «дисциплин», в каждой 3 разных задачи нарастающей сложности — на бронзу, серебро и золото. Benjie думал, что для того, чтобы с ними справиться, текущих технологий не хватит.

Physical Intelligence показали, что это не так — в 3 из 5 направлений они смогли взять золото, то есть выполнить самую сложную задачу из секции. Причём в оставшихся двух они не смогли их выполнить в силу того, что фокусируются на простых роботах с очень широкими и простыми грипперами.

Например, не смогли расправить и повесить вывернутую наизнанку рубашку на вешалку. Почему? Потому что гриппер не пролазит в рукав. Или не смогли очистить апельсин (когда в гриппер добавили ковырялку — задача поддалась).

То есть это ограничение конкретного оснащения, с которым они работают, нежели технологии в целом — не удивлюсь, если условные Figure.ai выпустят видео и покажут, как гуманоид с пальцами наяривает мандаринки.

Да, это не работает идеально — в среднем их показатель успешности выполнения по всем задачам составляет 52%, а прогресс выполнения задачи — 72%.

Для почти всех задач собирали не больше 9 часов данных. По мере того как модели становятся мощнее, обучаться даже самым сложным задачам будет всё проще. Для новых задач может потребоваться не только меньше данных, но и более простые источники данных (прощающие больше шума).

Из остальных задач мне показались интересными:
— открыть замок/дверь ключом
— намазать масло на хлеб и сделать сендвич
— очистить жирную сковороду водой и губкой

Роботикс набирает обороты, в 2026-м, думаю, увидим очень много прогресса — так как компании уже имеют хорошее железо и цикл сбора данных и тренировки моделей, позволяющий в короткие сроки добавлять новые навыки. Плюс, RL поверх VLA тоже начал работать (я так понял по посту Physical Intelligence RL они не использовали, потому доля успеха не за 90%).

Посмотреть видео, включая сбор отходов жизнедеятельности животных в мешочек 😏 можно тут: https://www.pi.website/blog/olympics

Читать полностью…

Сиолошная

На этой неделе Sama обещал новогодние подарки. Одним из них, видимо, станет новая модель генерации изображений. Интересно, сделают ли её частью приложения+ленты Sora?

Но это не интересно — хочется увидеть аналог o3 preview, как в прошлом году, и систему, которая летом выиграла золото на олимпиаде по математике — в идеале, не в рамках подписки за $2000 😭

Читать полностью…

Сиолошная

История из чата канала, в которой преподаватель неназванного заведения дал неопубликованную исследовательскую задачу, а модель, подумав час, решила её. По своему опыту скажу, что есть что-то магическое, когда отправляешь модель работать на столь долгий срок, закрываешь вкладку, приходишь потом и видишь ответ. А ведь время автономной работы будет только расти!

Вместе с релизом GPT-5.2 OpenAI выпустили блог + статью по статистической теории обучения, в которой «люди не предлагали никаких стратегий доказательства или промежуточных аргументов, а лишь побуждали модель к дальнейшему развитию дополнительных результатов, а также проверяли её доказательства».

Уверен, что Gemini DeepThink справилась бы не хуже, но для реального использования у неё маловаты лимиты по сравнению с OpenAI, 50 запросов в день не сделаешь.

📈 эпоха вайб науки начинается

Читать полностью…

Сиолошная

Часто в комментариях обсуждают, что вот попробовали какую-то модель (часто — китайскую, GLM/Kimi/DeepSeek) для программирования, и она в целом даже не так плоха, может быть чуть похуже фронтир-моделей, зато стоит копейки и они будут её пробовать.

В профессиональном контексте, если речь идёт про использование в работе или личных необразовательных проектах, мне всегда это казалось странным. Зачем использовать модель на 3-4-5% хуже 🤔это же выливается в моё время, которое на горизонте месяца уж точно покрывает стоимость подписки.

Понятно, что есть те программисты, у которых $200 — существенная часть ЗП, и они не могут себе позволить (например, стажёры). Иногда хочется просто попробовать, и это важно, чтобы понимать возможности моделей.

В контексте этих размышлений вспомнил момент из лекции Gabe Newell, ко-фаундера Valve, разработчика и издателя игр. Valve — непубличная компания, где разработчики получали бешенные деньги (хотя по меркам AI бума это уже крохи, кек).

Перевод речи из ролика:
— Мы пришли к убеждению, что все движутся в неправильном направлении. Существовала своего рода тенденция к аутсорсингу. Аутсорсинг — это, по сути, вопрос: где бы нам найти в мире англоговорящего работника с самыми низкими запросами? Мы дадим ему работу, и он выполнит ее так же хорошо, но за гораздо меньшие деньги.

— Нам это казалось полной противоположностью того, что следовало бы делать. И мы решили, что будем нанимать самых дорогих специалистов, которые только есть в мире. [Мы решили], что возможность заключалась в том, что... именно эти люди были оценены рынком наиболее некорректно.

Читать полностью…

Сиолошная

Посмотрел получасовое интервью с CEO Anthropic Dario Amodei, в котором он на протяжении получаса пытается не называть компанию OpenAI по их названию, заменяя на «другие игроки», «эти компании» и «берлинский пациент» 😀 (вот тут прям заорал)

За одну из вещей очень зацепилось ухо (с 3:36 в приложенном видео):
— Я просто вернусь к нашим собственным расчетам и неопределенности, исходя из которых мы говорим: мы хотим закупить достаточно вычислительных мощностей, чтобы быть уверенными, что даже при сценарии 10-го процентиля — скажем, оказавшись в плохом положении — мы все равно, как мы считаем, сможем за эти мощности заплатить.
— Конечно, существует крайняя часть кривой распределения, где дела могут пойти настолько плохо, что мы не сможем платить... всегда есть "хвостовой риск". Он не равен нулю. Но мы стараемся грамотно управлять этим риском, в то же время приобретая такой объем мощностей, который позволяет нам конкурировать с другими игроками. Мы очень эффективны в обучении моделей, мы очень эффективны в инференсе, у нас хорошая маржа. Я думаю... знаете, я думаю, что мы справимся.

То есть он говорит, что их ставка настолько неамбициозна, что даже если будет самый плохой сценарий роста их выручки — они смогут расплатиться за сервера. Но это не то, чем быстрорастущие компании, вообще-то, должны козырять.

Если вдруг через 3 года окажется (а я-то верю, что так окажется), что реальность будет куда ближе к прогнозам на спрос от OpenAI, то Anthropic будут в очень незавидном положении. Даже если их модели будут лучше — они банально не смогут их предоставлять всем желающим, и этот дефицит будет куда хуже, чем во времена Opus 3.5 — Opus 4.

Читать полностью…

Сиолошная

Внезапно, TheInformation получили ещё больше информации о будущих релизах OpenAI:

— Помимо модели под кодовым названием Shallotpeat, упомянутой ранее, OpenAI работают над Garlic. Mark Chen, руководитель исследовательской команды, в общении с коллегами сказал, что OpenAI стремится выпустить версию Garlic как можно скорее; по мнению TheInformation, это означает, что не стоит удивляться релизу GPT-5.2 или GPT-5.5 уже к началу следующего года.

— Garlic — это модель, отличная от Shallotpeat, новой большой языковой модели, находящейся в разработке. В октябре Sam Altman сообщил сотрудникам, что Shallotpeat поможет OpenAI составить конкуренцию Gemini 3 (и видимо эту модель мы увидим на следующей неделе). В Garlic уже внесены исправления ошибок, которые компания протестировала при разработке Shallotpeat на этапе предтренировки (первой и ресурсоёмкой стадии обучения).

— По словам Mark Chen, при разработке Garlic компания OpenAI решила ключевые проблемы, с которыми сталкивалась на этапе предтренировки, в том числе превзошла свою «предыдущую лучшую» и «гораздо более крупную» модель, GPT-4.5. Mark добавил, что благодаря урокам, извлеченным в этот раз при работе над Garlic, OpenAI уже перешла к разработке еще более крупной и совершенной модели.

Таким образом:
— Shallotpeat выйдет совсем скоро (на следующей неделе), в ней не будет существенных изменений в знаниях / эффективности
— Garlic выйдет попозже, в начале 2026-го; модель может быть крупнее и умнее
— OpenAI уже начинает подготовку (или уже перешли к тренировке) следующей крупной модели.

Читать полностью…

Сиолошная

И ещё две картинки — сравнение TCO ($ в час за петафлопс вычислений) между Blackwell / TPUv7 и Vera Rubin / TPUv8. У TPU варьируется утилизация, в зависимости от которой TCO может быть более или менее выгодным, чем у Nvidia.

Читать полностью…

Сиолошная

😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к Нобелевской премии) https://www.youtube.com/watch?v=d95J8yzvjbQ

Читать полностью…

Сиолошная

https://www.anthropic.com/news/claude-opus-4-5

Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!

Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.

На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).

Читать полностью…

Сиолошная

От Epoch.AI как всегда интересная инфографика — на этот раз оценка количества проданных GPU разных поколений и производителей по кварталам.

1) Общий график роста количества мощностей, выраженных в эквивалентах H100 (FP8). Это график продаж, то есть установка в датацентры и тем более использование в продакшене идёт с некоторой задержкой. И даже так на январь 2025-го суммарно было примерно 6.7M H100-эквивалентов, а на сентябрь — 15.7M, в 2.35 раз больше. За неполный год количество мощностей во всём мире более чем удвоилось.

Суммарно все закупки оцениваются в $287B — в 3 раза меньше, чем OpenAI планирует купить в ближайшие 8 лет. С одной стороны не так много — спрос на ИИ пожалуй вырастет в 3 раза; другое дело, что это всё пойдет ОДНОМУ игроку.

2) Распределение в процентах по кварталам между игроками; Nvidia доминирует, и уступает больше рынка... другим американским компаниям, нежели Китаю. Дракон пока не проснулся, или вернее проснулся, но не разогнался.

Читать полностью…

Сиолошная

Ночью на выставке CES Nvidia официально представила новые видеокарты для ИИ-датацентров в линейке Vera Rubin. Как и всегда, всё мощнее, быстрее, главное накидывают больше памяти, так что производительность больших моделей вырастает (картинка 1), а цены снижаются.

Интересно, что прирост в пропускной способности 10x показали не на уровне 50 токенов-в-секунду, как обычно нам предоставляют сервисы вроде ChatGPT, а около 225 — именно там наибольший прирост для моделей размера в 1 триллион параметров. В теории, может быть для платных пользователей сервисов будет увеличенная скорость генерации — я вот мечтаю, что GPT-5.2 Pro будет работать не за 20 минут, а за 5.

И отдельно представили специальный вид железа под названием Context Memory Storage Platform (картинка номер 2). Это очень быстрый SSD, подключающийся напрямую к GPU так, что загрузка данных игнорирует CPU и оперативную память.

Этот SSD, судя по предыдущим новостям, будет иметь скорость в 100 миллионов операций чтения и записи случайных данных в секунду. Это очень много — ChatGPT говорит, что хорошие SSD в игровых компьютерах выдают 1-3 миллиона. Это всё равно существенно медленнее оперативной памяти, но зато объёмы выше.

Сходу смог придумать три применения для этих дисков, все три предполагают дальнейший рост длины чатов/цепочек рассуждений:
1) выгружать ваш чат из памяти, пока вы читаете и печатаете ответ (расширение функциональности кэширования)

2) выгружать состояние GPU для того, чтобы быстро загружать его обратно в будущем (это позволяет ускорить запуск виртуальных машин, чтобы не инициализировать что-то с нуля; альтернативно, можно загружать персонализированные LoRA-адаптеры, которые немного дообучены под вас или один из сотен доменов)

3) самое интересное — позволить моделям во время обучения писать гораздо более длинные цепочки рассуждений, в миллионы-десятки миллионов токенов. Сейчас модели так просто не могут, но если бы могли, то быстро упёрлись в количество памяти на GPU. Я могу представить, как условный DSA от DeepSeek ложится на это решение — быстрые индексы для поиска релевантных токенов живут в GPU, и по ним определяется, какие части предыдущей истории загружать с SSD.

Акции Nvidia после презентации не выросли.... (non 🔼)

Читать полностью…

Сиолошная

Продолжаю ковырять интернет на наличие любопытных штук которые можно купить онлайн (просто так), и наткнулся на сайт по продаже небольших бизнесов в США:
за ~200$ тысяч можно купить бар в Техасе, за ~1М$ прачечную в Нью-Йорк, заправку за ~300к$ и тп., бизнесы реальны и работают прямо сейчас.

И пришла идея, на случай если я стану возмутительно богатым:
> Берем GPT5 которая через годик-два выйдет
> Прописываем ей роли агентов нужные для управления бизнесом (допустим, тратим на автоматизацию этого всего много времени и весь бек-офис забираем на автоматизацию)
> Начинаем скупать бизнесы какие только можно, желательно так, чтобы там уже был персонал и лично ничего смотреть не нужно было бы
> …
> Профит

Идея в том, что GPT5 модель сможет управлять бизнесом эффективнее человека, если научиться ей передавать ключевые метрики (в чем главная проблема).

Персонал и менеджеры коммуницируют с «заморским» владельцем через почту, и не в курсе что он нейронка 🌚 нейронка же присылает инструкции по следующим шагам для ключевых менеджеров.

Забавно, что мы достаточно близки к такому в реальности – я иногда скармливаю экспорты данных нашего стартапа по продуктовым метрикам, или финансовым показателям, и модель выдает разумные рекомендации (вторая картинка) или советы по улучшению бизнеса, которые я уже исполняю (если они уместны). То есть технически, это все очень реализуемо даже сейчас, если сильно заморочиться.

Я уверен идея не нова и понравится всем ИИ-алярмистам 😃

Ну и еще выглядит так, что капитализм правда уязвим к таким моделям ИИ, это еще не общий искусственный интеллект, но уже можно представить как такой тул захватывал бы рынки где угодно.

Интересно, запретят ли государства такую авто-монополию в целом ☕️

Читать полностью…

Сиолошная

Авторы AI 2027 обновили свою работу и скорректировали прогнозы времени развития AI — и представили AI Futures Model (пересказ в блоге, основная страница, модель предсказания и 100-страничный аппендикс). Эта модель модель учитывает больше факторов, чем предыдущая, и вводит несколько ключевых точек развития, достижимость которых оценивается через эти факторы.

Спойлер: модель предсказывает, что сроки достижения полной автоматизации программирования будут примерно на 3 года больше, чем в предыдущей модели (AI 2027). В основном это связано с менее оптимистичным взглядом на ускорение исследований в области ИИ на этапе до полной автоматизации.

Одним из важных новых факторов является research taste (исследовательское чутьё?), насколько хорошо ИИ умеет выбирать направления исследований и интерпретировать эксперименты. У людей в ведущих лабораториях этот навык очень прокачан — они могут по нескольким экспериментам понять, что работает лучше, что хуже.

Саму модель я не успел изучить досконально, и пока ознакомился лишь с кратким пересказом. Развитие делится на 3 этапа, первый из которых прогнозирует появление «Автоматизированного программиста» (AC). Если перенести его в сегодняшний день, он был бы так же производителен сам по себе, как люди-программисты без помощи ИИ. То есть, можно было бы убрать всех людей-программистов из проекта по созданию AGI, и работа шла бы так же быстро, как если бы там были только люди.

Для прогнозирования этого авторы опираются на все те же данные METR по длине задач, которые могут решаться автономными агентами, но с некоторыми поправками:
— Ресурсы для прогресса ИИ — прежде всего вычислительные мощности, труд по разметке, данные и т.д. — не будут расти такими же темпами вечно, поэтому прогноз нужно слегка занизить.
— В то же время сам ИИ будет ускорять развитие за счёт увеличения эффективности труда исследователей
— и достаточно спорный тезис: авторы предвидят сверхэкспоненциальный рост длины автономности агентов в силу некоторых причин, однако это не очень влияет на первый этап, пока мы не достигли AC.

К сожалению, в кратком пересказе ничего не говорят про корректировку данных METR на зашумлённость текущих оценок, вероятность переобучения на конкретный бенчмарк (хотя я оцениваю её как достаточно низкую), и самое главное, как заметил Сергея Николенко в комментариях пару недель назад — как выглядит разница между горизонтом выполнения задачи 5 и 10 лет? Какие задачи, требующие 10 лет труда людей, не может сделать агент, решающий 5-летки? То есть возможно интуиция оценки горизонтов автономности не будет иметь смысла после какого-то порога.

Этап 2 предсказывает, как быстро мы перейдем от AC к Сверхчеловеческому ИИ-исследователю (SAR) — ИИ, чье исследовательское чутье соответствует уровню лучшего исследователя-человека. Этап 3 — это саморазвитие ИИ с нулевым вкладом человека, оно совсем за облаками пока.

Пара цитат от Daniel Kokotajlo, соавтора работы:
— Меня совершенно не впечатляют разговоры об ограничениях текущей парадигмы. Последние десять лет были, по сути, чередой преодолений одного «хваленого» ограничения за другим; глубокое обучение «уперлось в стену» лишь в том смысле, в каком Годзилла упирался (и пробивал насквозь) во множество стен.

— Способность учиться у целого парка развернутых агентов может компенсировать неэффективность использования данных, а способность управлять файловыми системами в огромных контекстных окнах и регулярно обновлять веса модели может компенсировать отсутствие непрерывного обучения.

— [думаю, что будет] в общем, та же последовательность событий, что описана в AI 2027, только, может быть, она займет на год или два больше времени, и с различными другими мелкими отличиями (например, я не ожидаю, что у какой-то одной компании будет такой большой отрыв, как у OpenBrain)

— беспокоюсь, что к 2027 году METR, по сути, перестанет измерять длину горизонтов планирования, и это пугает, потому что тогда мы, возможно, не сможем сказать: ускоряется ли развитие до супер-экспоненциального или продолжает расти устойчивым экспоненциальными темпами.

Читать полностью…

Сиолошная

Пора бы начать думать, какую LLM мы отправим в первую автономную миссию на Марс для локального управления развертыванием базы.

Читать полностью…

Сиолошная

Наконец-то доехал новогодний подарок от OpenAI — свитшот к десятилетию компании. Был доступен очень маленькое количество времени в официально запущенном магазине мерча.

Here's to 10 more 🫡

Читать полностью…

Сиолошная

Близится конец года, а это значит что помимо его итогов многие подводят результаты ставок и споров 😊

Вот например на Polymarket есть рынок «какая компания будет иметь лучшую кодинг-модель по окончанию 2025-го?», и там, возможно, внезапно для некоторых, безоговорочным лидером является OpenAI (95%).

Уверен, в канале найдется много комментаторов, которые уже давно похоронили компанию, надели майки «Гугл вперед», и которые сейчас удивились 🙂

Как и в случае моего августовского поста, причина — в критерии, который используется для разрешения. В этом случае используется подраздел coding бенчмарка LiveBench, который как раз недавно (в ноябре) обновляли.

GPT-5.1 Codex Max выбивает там 81.38, а Claude 4.5 Opus Thinking High Effort — 79.65%. Скорее всего тут разница даже не стат. значима, но на рынке это не учитывается.

Однако даже если брать другой бенчмарк, то я бы смотрел в сторону SWE-ReBench, где модели гоняют на самых свежих задачах, гарантированно не присутствовавших с тренировочных данных. gpt-5.2-2025-12-11-medium там слегка лидирует над моделями Anthropic (хоть на первом месте и Opus, но запущенный через Claude Code). Эх, ещё бы ребята на xhigh расщедрились бы...

Но что куда интереснее — это ретроспективная оценка GPT-5, вышедшей в августе. Помните перед релизом были новости, что по внутренним бенчмаркам компании она сопоставима с Opus/Sonnet, и что OpenAI «догонят» конкурентов? Получается, это было правдой — сейчас, с набором статистики и большего количества задач модель всё равно держится в топе, и обгоняет Gemini 3 Pro, и Sonnet 4 (а вот от 4.5, вышедшего на полтора месяца позже, слегка отстаёт).

Читать полностью…

Сиолошная

Помните, несколько лет назад Amazon хотел купить iRobot и европейские регуляторы заблокировали сделку? Ну вот, компания, положившая начало продуктовой категории роботов-пылесосов, подала заявление о банкротстве по главе 11. Контроль переходит к китайскому Shenzhen PICEA Robotics — основному поставщику iRobot.

Компания достаётся китайскому производителю фактически через механизм выкупа долга в 191 млн.

Будет очень иронично, если в итоге Еврокомиссия будет обсуждать, как защитить европейский рынок от очень дешевых китайских роботов-пылесосов.

https://www.bloomberg.com/news/articles/2025-12-15/robot-vacuum-roomba-maker-files-for-bankruptcy-after-35-years

Читать полностью…

Сиолошная

Видео от компании в честь юбилея

Читать полностью…

Сиолошная

Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить этимологию. Теперь как дурак весь день буквально на каждую фразу по делу и без повторяю «hands down» (с интонацией Dario, кек 😀)

А какие у вас любимые идиомы в английском с неочевидным возникновением? Кидайте в комментарии, посмотрим!

Читать полностью…

Сиолошная

Вчера увидел пост «После релиза Gemini 3 у OpenAI начал падать трафик! Поэтому и бьют код красный! Всё кончено, гугл победил».

Сегодня увидел сравнение трафика в США после Чёрной пятницы / дня Благодарения по годам, 2023-2024-2025 — падение такое же, как в 2024-м, и меньше, чем в 2023-м. Продолжаем наблюдения

Источник

Читать полностью…

Сиолошная

Я сначала подумал, что это шутка, но нет — именно Nvidia заменили печально известную Enron в индексе SNP500. За 24 года вырвались в топ 🚀молодцы ребята

Читать полностью…

Сиолошная

В твиттере наткнулся на очень интересную статистику по длительности выполнения задач на SWE-Bench Verified и качеству разных моделей в этих срезах. Оказывается для каждой из 500 задач есть аннотация её сложности, вычисленной по примерной длительности выполнения. Оценка сделана вручную, но по очень простым критериям (отсюда), например, всё что больше 100 строк — в последнюю категорию.

Над более объёмными задачами уже работают, в SWE-Bench Pro есть сравнение, там уже больше кода писать нужно (и качество, соответственно, меньше).

Читать полностью…

Сиолошная

Вместе с моделью добавили 3 новые фичи:
— инструмент поиска инструментов
— программный вызов инструментов
— примеры для инструментов

Последние два менее интересны, но в целом полезны для практики. Детально читайте в блоге, TLDR: можно показать примеры вызовов инструментов, чтобы не было путаницы с форматом, например, дат, и вызов инструментов через код (так, что промежуточные состояния не попадают в контекст -> не загрязняют его).

А вот поиск инструментов — это маст хэв. Если вы подключаете к Claude Code пару-тройку MCP-серверов с 20-30 инструментами, то сжираете сразу 30-40 тысяч токенов контекста. Мало того что вы платите за них при каждом вызове, так ещё и модель тратит ценное внимание на эти токены. Ещё и работает чуть медленнее. Одни минусы! Кто придумал GitHub MCP на 26 тысяч токенов???

Решение: Tool Search Tool, который из всех подключенных инструментов кладёт в контекст только нужные. На замерах компании это привело к увеличению метрик (с 79.5% до 88.1% на каком-то внутреннем бенчмарке), не говоря уже про все остальные плюсы: цена, скорость, полезный контекст.

Ждём появления у конкурентов

Читать полностью…

Сиолошная

Совсем недавно я рассуждал про мощности, необходимые для тренировки Agent 0 и Agent 1 из работы AI-2027, и пришёл к выводу, что немного отстаём от обозначенных таймлайнов (не успели достроить и запустить датацентры). С выходом GPT-5.1-Codex-Max METR провели оценку длительности инженерных задач, которые модель может решать с 50% успеха, и обновили свой график — и по нему видно, что 2025-й идёт к концу, а Agent 0, который должен отрываться, не видно (см. картинку). Кстати, обратите внимание, что при этом замеренное качество отлично ложится на тренд от самих METR.

Авторы AI-2027 решили прокомментировать обсуждение в Твиттере — там, как известно, люди не любят читать, только кидать картинки и писать краткие ироничные комменты. Очень большое количество людей, конечно, не заглядывали в расчёты и оценки, и теперь им кажется, что смещение мнения авторов с 2027-го на 2028-й или 2029-й — это полная инвалидация всей работы.

В самой же работе, по-моему, яснее некуда было написано, что такое 2027-й и почему авторы выбрали его, и из этого же следовало, что не важно, 2027-й это или 2030-й. Ниже привожу вырезку из комментариев авторов:

— Все авторы проекта AI-2027 на момент публикации считали, что вероятность создания AGI к концу 2027 года составляет как минимум >10%, и что наиболее вероятным годом (модой) появления AGI является либо 2027, либо 2028 год. Ведущий автор, оценивал вероятность появления AGI к концу 2027 года примерно в 40% (то есть это даже меньше медианной уверенности). Это объясняется в самом начале.

— Почему решили написать сценарий, в котором AGI появляется в 2027 году, если это было модой, а не медианным значением? Дело в том, что когда начинали писать, то 2027 год действительно был медианой главного автора, но к моменту завершения работы и анализа медиана сместилась на 2028 год. У других авторов медианные прогнозы указывали на более поздние сроки, но они согласились, что 2027 год вполне правдоподобен, и поддержали реализацию видения главного автора.

— Однако важнее то, что авторы считали (и продолжают считать), что цель сценария заключалась не в том, чтобы показать, «почему AGI появится именно в году X», а в том, чтобы сказать: «мы думаем, что AGI/сверхразум/и т.д. может появиться скоро; но как это будет выглядеть на практике? Как отреагирует правительство? Каковы будут последствия для…» и так далее. Об этом написано на главной странице!

— Сейчас медианный прогноз главного автора — это район 2030 года, при этом мода всех авторов приходится на чуть более ранний срок. Вскоре будет опубликован обновленный и улучшенный прогноз сроков, а также пост, объясняющий, как и почему взгляды изменились за последний год. Если вкратце: прогресс оказался несколько медленнее, чем ожидали, и, кроме того, у нас теперь есть новая, улучшенная модель прогноза, которая дает немного другие результаты.

Читать полностью…
Subscribe to a channel