seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

66252

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

Вижу некоторое количество сравнений текущего бума инвестиций в AI-инфраструктуру и инвестиций в железные дороги в США в 19-м веке. Так как я историей никогда не интересовался, то ничего не знаю про последнее, и иду читать материал / отправлять DeepResearch писать отчёты, чтобы лучше разобраться и понять. Может быть по результатам этого накатаю какой-то пост.

Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, не смогли расплатиться.

Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.

«рыночный крах» != «хайп / скам / технология с низким потенциалом»

Читать полностью…

Сиолошная

Вот так выглядят генерации Sora 2 (со звуком)

https://fixupx.com/OpenAI/status/1973055265084690780

Стрим через 50 минут

Читать полностью…

Сиолошная

Прикольно, мне ChatGPT Pulse подсказывает какие у Vibe moat нужно развивать, какие метрики считать для предсказания виральности, как растить ретеншен

Читать полностью…

Сиолошная

It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь вычислительных мощностей на 250 ГигаВатт к 2033-му году.

Для сравнения: летом в США на пике жары было ~750 ГигаВатт, в три раза больше, а в среднем порядка 500. В Китае цифры 1500 и 1300 соответственно.

2025-й год OpenAI началаис серверами примерно на 230 МегаВатт, а закончить планируют с 2 ГигаВаттами. В ближайшие три года Stargate позволит вырасти ещё примерно на 7.

Sama называет команду OpenAI, стоящую за проектом Stargate, «ключевой ставкой» компании. «Правильное выполнение этого проекта обойдётся в триллионы», и наверняка потребует переработки существенной части цепочки производства.

Источник

Читать полностью…

Сиолошная

АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai.

Among AIs оценивает мышление и дедукция, навык обмана, убеждение, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей).

Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2.

Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw

Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям»

Читать полностью…

Сиолошная

Sovereign AI is real 😳

Читать полностью…

Сиолошная

Jupyter Agents: training LLMs to reason with notebooks

Не статья, но блогпост от 🤗Huggingface про то, как они дообучали Qwen3-4b как Jupyter Agent — для генерации кода блоками и выполнения мини-исследований в Jupyter. Мне показалось, что в блоге есть много интересных технических деталей, которые показывают, сколько разных направлений можно копать, пока улучшаешь данные для дообучения под конкретную задачу.

В качестве горы для покорения выбрали бенчмарк DABStep (Data Agent Benchmark for Multi-step Reasoning), выпущенный Huggingface в начале года — он как раз направлен на решение задач по анализу данных. Поскольку модель маленькая, 4b, то решили фокусироваться на лёгкой половине задач, чтобы наблюдать прогресс.

Что сделали:

— заменили обёртку агента (набор промптов и функций) со своей на Qwen Agent, так как модель наверняка лучше работает в родном инструменте и под него тюнилась. По ходу переписали в более компактной форме, уложившись всего в 200 строк кода. Только это дало рост качества с 38.7% до 52.8%

— решили собрать датасет Jupyter-ноутбуков и дообучить модель на нём. Скачали 2 терабайта ноутбуков с Kaggle, удалили дубликаты, получилось 250 гигабайт. Но ноутбуки ничего без данных (обычно, данных соревнований), поэтому скачали их их, всего 5 терабайт. Удалили те, которые хранят чекпоинты моделей, а также всё, что больше 10 гигабайт. И после, что логично, оставили только те ноутбуки, для которых данные были скачаны и остались после фильтрации.

— многие ноутбуки грязные и вообще смысла в них мало. Поэтому взяли Qwen3-32B и запромптили его оценивать «ценность в образовательных целях» по пятибальной шкале. Выкинули худшие 70% оставшихся ноутбуков. Ещё часть выкинули через промптинг того же Qwen3-32B на релевантность анализу данных. Если, например, в ноутбуке тренировали LLM (не связано с аналитикой) — его выкидывали.

— дальше начали генерировать синтетические пары запрос и ответ, код ноутбука, который отвечает на вопрос по данным, рисует графики итд. Для этого сначала промптили Qwen3-32B на генерацию вопросов, на которые можно было бы ответить уже имеющимся в ноутбуке кодом. Говоря грубо, «на какой вопрос отвечает вот этот код?». Вторым шагом стала фильтрация вопросов, чтобы убедиться, что ответ на них действительно есть в коде.

— (если вам интересно, все промпты тут)

— Наконец, будем генерировать финальный чистовой код, поскольку исходный даже после фильтраций зачастую наполнен нерелевантным контентом. Тут взяли модель посерьёзнее, Qwen-3-Coder-480B, подавали на вход сгенерированный выше вопрос, код Jupyter и просили переписать решение, чтобы не было ничего ненужного. Затем код исполняли, и новый Jupyter-ноутбук сохраняли, а вместе с ним — промежуточный вывод (картинки, логи исполнения, результаты принтов).

— ... в процессе выяснилось, что многие датасеты почему-то недоступны. Авторы запромптили Qwen-3-Coder-480B генерировать фейковые результаты выполнения кода 👍: You are a stateful Python code interpreter that executes code in a persistent environment. Your role is to execute Python code while maintaining state across multiple code cells, similar to a Jupyter notebook environment. [REST OF THE PROMPT]. То есть если данных не было, и их не получалось считать, но по коду видно, что там были колонки «дата, сумма платежа, назначение», то Qwen просто генерировал примерно разумные значения.

В результате получилось 51 тысяча синтетических ноутбуков, примерно 0.2B токенов для дообучения. Запустили SFT на Qwen3-4b на 5 эпох, замерили качество — выросло с 52.8% до 75%, солидный прирост. На практике модель теперь может решать широкий спектр задач анализа данных в Kaggle-like стиле с последовательным выполнением нескольких блоков кода.

Ну а команда дальше обещает попробовать модели побольше и прикрутить к ним RL и рассуждения.


Поиграться с Jupyter Agent 2 бесплатно тут

Читать полностью…

Сиолошная

Сегодня ровно год с момента анонса первой рассуждающей модели компанией OpenAI. Тогда нам показали, что модель, обученная подумать перед ответом, достигает прорывных показателей, и этим можно управлять: дашь подумать подольше — ответ будет получше.

OpenAI сказали сразу: это новая парадигма в масштабировании моделей; посмотрев на результаты и прикинув, что дальше, я с этим согласился и написал лонг: о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ.

Ретроспективно оценивая последний год можно легко сказать, что это оказалось правдой. Прирост качества был настолько большим, что нерассуждающие модели использовать уже не хочется, и их релизы, например, GPT-4.5, могли вызвать разочарование.

За год до этого две разные специализированные системы от Google смогли забрать серебро на международной олимпиаде по математике. В этом году из-за прогресса получилось выиграть золото — и моделью общего назначения, а не чем-то, что заточено только на геометрию или работу со специальным языком Lean4.

Я рад, что за год получилось посмотреть на прогресс в масштабировании RL: o3, Grok 4 — в них объём вычислений, потраченных на RL, существенно превосходит оные в o1. Я ожидаю, что в следующий год мы ещё больше убедимся, как сильно подвинулась граница навыков моделей.

Читать полностью…

Сиолошная

В комментариях, в твиттере, на реддите и вообще везде люди постоянно пишут:
— модель стала глупее!
— я вот раньше мог за полчаса полугодовой проект сделать а сейчас модель не может функцию написать!
— да понятно они просто срезают косты и делают модели тупее...

Это продолжается больше 2 лет. Самое смешное, что я ни разу не видел, как люди показывали поведение «тогда» и «сейчас» на том же самом промпте. Вот ни разу не было "смотрите тот же самый промпт 3 недели назад и сейчас!" (но даже если бы показали — один промпт особо ничего не покажет).

Сам таким грешу, и редко перепрогоняю одни и те же запросы 3-4 раза на разных моделях в разные моменты времени. По моей версии, никакого оглупления не происходит (по крайней мере у OpenAI — 80%+ моих запросов улетают им), просто люди а) не делают прям одинаковые запросы б) имеют маленькие выборки в) плохо понимают границу работоспособности (написать один и тот же код на двух разных фреймворках одного языка — крайне разные задачи).

Так вот — недавно Anthropic (весьма скрытно и без огласки) написали, что Opus на несколько дней и вправду отупел! «С 17:30 UTC 25 августа до 02:00 UTC 28 августа в Claude Opus 4.1 наблюдалось снижение качества ответа на некоторые запросы. Пользователи могли столкнуться с более низким перформансом, некорректными ответами или проблемами с вызовом инструментов в Claude Code».

Причина: «Это было вызвано выкткой нового кода для инференса, который мы с тех пор откатили для Claude Opus 4.1. Хотя мы часто вносим изменения, направленные на повышение эффективности и производительности наших моделей, мы стремимся всегда сохранять неизменное качество отклика модели. Мы также обнаружили, что Claude Opus 4.0 подвержен той же проблеме, и сейчас решаем её.»

Ждём чистосердечного от OpenAI, где они признают, что вместо GPT-5 людям отвечает ChatGPT из 2022-го года (ведь она им ТАК нравилась).

Читать полностью…

Сиолошная

Специалисты антивируса ESET обнаружили первый компьютерный вирус на основе... LLM. Вирус незаметно скачивает GPT-OSS-20B модель и запускает её через Ollama API для того, чтобы агент на основе модели лазил по локальным файлам и принимал решения на лету.

В вирус захардкожено несколько промптов, которые:
— просят сгенерировать код на LUA, который обходит файлы в разных папках и печатает их контент
— определяют, есть ли в файлах чувствительная информация
— генерируют персонализированное сообщение для пользователя о том, как именно будет использоваться его контент (удаление/шифрование/публикация). В этот текст также добавляется биткоин-кошелек для перевода, правда это похоже на заглушку: адрес принадлежит создателю Bitcoin Satoshi Nakamoto
— генерируют код для шифрования файлов (правда я не понял, почему это нельзя было захардкодить — может потому что текст легко обнаруживается антивирусами?)

В общем, скорее всего это прототип или разработка, а не полностью работоспособный вирус, развёрнутый в реальных условиях, но вот такой вот прецедент. Ещё 2-3 поколения локальных моделек, которые станут и умнее, и меньше — и сё!

Читать полностью…

Сиолошная

Пример работы

Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ _какой-то_ модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики.

Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель»

Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».

Читать полностью…

Сиолошная

Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.

В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.

Читать полностью…

Сиолошная

Помните классику?

Ученый на интервью: «Все мои суждения бессмысленны, если они вырваны из контекста». Заголовок в газете на следующий день: «Знаменитый ученый признался, что все его суждения бессмысленны!»

Вот буквально это проделали журналисты и эксперты с недавним отчетом MIT о «полном провале ИИ-инициатив в корпорациях». Велик шанс, что вам на днях попадались заголовки про «всего 5% ИИ-инициатив успешны» и «ИИ провален в 95% случаев». Внимательно прочитать 26 страниц текста с картинками, похоже, мало кто смог.
Поэтому порадовала редкая статья, где автор с некоторым недоумением замечает, что отчет-то совсем о другом — если его прочитать. Он о том, что сотрудники массово и добровольно используют публично доступный ИИ в своей повседневной работе (и не пользуются корпоративными решениями в силу их очевидно более низкого качества).
a closer reading tells a starkly different story — one of unprecedented grassroots technology adoption that has quietly revolutionized work while corporate initiatives stumble. Это не проблемы ИИ, а полная некомпетентность руководителей, поэтому — уникальный случай! — происходит «революция снизу»: researchers found that 90% of employees regularly use personal AI tools for work. И вот про эти 90% не написал никто. Поразительно, но сформировалась «теневая экономика ИИ», не попадающая в корпоративные отчеты: Far from showing AI failure, the shadow economy reveals massive productivity gains that don’t appear in corporate metrics.
Почитайте материал по ссылке, если уж не сам отчет, там много интересных примеров:)
https://venturebeat.com/ai/mit-report-misunderstood-shadow-ai-economy-booms-while-headlines-cry-failure/

Читать полностью…

Сиолошная

Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark

Вот мы говорим, что модели рассуждают перед тем, как дать ответ. Но эти рассуждения ведь наверняка отличаются качественно? Можно 10 раз ходить по кругу, а можно сходу написать правильное решение, перепроверить его и выдать пользователю. Второе гораздо более предпочтительно — ведь это и быстрее, и дешевле (ведь за токены рассуждений мы тоже платим).

Nousresearch провели мини-исследование на задачах по математике, знаниям и логическим загадкам и проанализировали длину цепочек рассуждений разных моделей. Если вкратце, то проприетарные модели выдают меньше токенов, чем открытые модели (хотя казалось бы им выгоднее делать наоборот, чтобы увеличивать выручку).

Иногда это доходит до абсурда: на вопросы в духе «столица Австралии» или «1+1» модель Magistral-medium может потратить ТЫСЯЧУ токенов. Недавняя GPT-OSS-120b обходится в среднем всего 76, Claude тоже достаточно эффективны и не перешагивают 110 токенов, Grok 4 — 154, Gemini 2.5 Pro 426 токенов.

На задачах по математике тренд схожий, Grok чуть получше, Claude чуть похуже, и весь опенсорс за ними — в самом конце также плетутся Magistral'и. И на логических задачах в целом картина не отличается.

Выходит, разработчики проприетарных моделей уже нащупали какой-то набор техник для увеличения эффективности рассуждений в пересчёте на токен. А вот тем, кто выкладывает модели, ещё только предстоит это сделать — а нам узнать, в чём же секрет. В паре статей видел, что длина ответа по ходу RLVR-обучения растёт до какого-то порога, а потом начинает падать — модель «умнеет» и перестаёт писать много бессмысленных слов. Но не факт, что это единственная причина.

На картинке — усреднённая относительная длина ответов моделей по всем типам протестированных промптов.

Читать полностью…

Сиолошная

Система OpenAI смогла выиграть вторую золотую медаль, на этот раз на олимпиаде по информатике

— 6-ое место из 330 живых участников
— у системы тоже было 5 часов времени на всё про всё, как и у людей. Количество посылок ограничено — 50 (столько же сколько у мясных)
— участие было официальное, согласовано с организаторами и ими же контролировалось
— система не использовала интернет или RAG (как решение Google на IMO), поиск по корпусу схожих задач+решений
— из инструментов был доступ только к терминалу
— OpenAI не обучали никакую модель специально для этой олимпиады
— в прошлом году специализированная система смогла выиграть лишь бронзу
— Google, вероятно, снова ждёт одобрения PR-отдела 🙂🙂

Читать полностью…

Сиолошная

Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4 вариантами ответа. Просили угарного профессора из МГУ показать бумажку с ответом.

Правильно ответили на 55% вопросов (качество GPT-5 ~72%), что выше большого числа моделей прошлого поколения.

КАААК? Скорее всего всё просто: перед подачей на генерацию промпт пользователя переписывается (не только для этих тестов, но и вообще для любого запроса), и модель решает задачу и пишет «покажи профессора который показывает букву C».

На неделе вышла статья от Google DeepMind, где они проверяют модель генерации видео Veo 3 на большом количестве физических и логических задач, от решения лабиринтов до имплементации графовых алгоритмов (через заливание трубочек водой), и, как мне кажется, это куда более интересно — рекомендую посмотреть лендинг вот тут.

Читать полностью…

Сиолошная

Чуть более полугода назад у нас с Валерой был стрим про высказывание CEO Anthropic, мол, через полгода модели будут писать 90% кода. На стриме, как мне кажется, я очень хорошо описал некоторые из важных оговорок при оценке подобного рода высказываний:
— есть разница «могут» и «делают»
— это может быть применимо к определённым языкам программирования, а не всем
— часть подходов к разработке придётся пересмотреть, чтобы было проще интегрировать ИИ-инструменты
— это может быть применимо к свежим проектам, а не 15+ годичной давности
— это может быть применимо к проектам до определённого размера, а не кодовой базе всего Фейсбука, например

Сами Anthropic сейчас говорят, что Claude Code написан их же моделями на 90%.

Большинство заявлений о том, что «90% кода написано ИИ», исходят от разработчиков моделей / продавцов ИИ-инструментов, поэтому многие (не я) их отметают.

Aider, АИ-ассистент для программирования с открытым исходным кодом, который я как раз упоминал на стриме, от релиза к релизу то и дело перешагивает планки 75-80%. Неплохо!

И вот наткнулся на блог Armin Ronacher, создателя Flask, Jinja, Click и других крупных популярны проектов. Цитаты из поста (но рекомендую прочитать оригинал целиком):

— Что касается инфраструктурного компонента, который я начал разрабатывать в своей новой компании, то, пожалуй, больше 90% моего кода написано с помощью ИИ. Я не хочу вас убеждать — просто поделюсь тем, что узнал. Отчасти потому, что я подошел к этому проекту иначе, чем в своих первых экспериментах.

— Сервис написан на Go с небольшим количеством зависимостей. Сейчас в нём около 40 000 строк, включая Go, YAML, Pulumi и несколько специальных SDK-прослоек.

— Я установил высокую планку, особенно в плане надёжности работы. Я уже работал с подобными системами и знал, чего хочу.

— Я уделяю пристальное внимание основам архитектуры системы, структуре кода и взаимодействию с базами данных. Я невероятно самоуверен. Поэтому есть вещи, которые я не позволяю ИИ делать. Я начинал проект традиционным способом: проектирование системы, схема, архитектура. На этом этапе я не позволяю ИИ писать с нуля, а просто включаю его в свой цикл рассуждений. Это помогает мне видеть типовые ошибки, даже если я не доверяю LLM.

— Для кода, сгенерированного и поддерживаемого ИИ, я теперь получаю стек, который выглядит примерно так, как мне часто хотелось, но было слишком сложно сделать вручную.

— Не могу не подчеркнуть, насколько плохим может быть код агентов, если не быть осторожным. Хотя они понимают архитектуру системы и то, как что-то построить, они не могут смотреть на всю картину целиком. Вам постоянно нужно вносить правильную информацию в контекст.

— Легко создавать системы, которые кажутся правильными, но при использовании ведут себя неправильно. Вот пример: я попросил его создать ограничитель лимитов. Он «работал», но не имел джиттера и использовал неудачные решения по хранению данных. Легко исправить, если знаешь ограничители лимитов, но опасно, если не знаешь.

— Для меня это дошло до того, что я уже не представляю, как можно работать по-другому. Да, я, вероятно, смог бы обойтись без ИИ. Но я бы построил другую систему, потому что мне пришлось бы идти на другие компромиссы. Такой подход открывает возможности, которые я обычно пропускаю или откладываю.

— Исследование + разработка вместо «исследование, а разработка потом»: на некоторые вещи, на понимание которых у меня ушел бы день или два, теперь уходит 10–15 минут.

— Пишет ли ИИ 90% кода? Не знаю. Знаю только, что для меня в этом проекте ответ уже точно «да». В то же время, для меня ИИ не владеет кодом. Я всё равно проверяю каждую строчку, формирую архитектуру и несу ответственность за то, как всё это работает.

===

(обратите внимание, что ни о каком вайб-кодинге речи не идёт: только вдумчивая работа, где, как мне кажется, по сравнению с обычным процессом мозги приходится напрягать даже больше — пока LLM работает, ты думаешь)

Читать полностью…

Сиолошная

А вот и первый продукт, который (пока) будет доступен только Pro-пользователям: ChatGPT Pulse.

Pulse — это первый шаг к новой парадигме взаимодействия с AI, при котором ChatGPT становится проактивным и самостоятельно проводит исследование, предоставляет персонализированные обновления на основе ваших чатов, отзывов и подключенных приложений. Вы можете сами управлять тем, какие темы ChatGPT исследует, указывая, что полезно, а что нет — обратная связь будет применена уже на следующий день.

Вы можете подключить Gmail и Google Calendar, чтобы предоставить дополнительный контекст для более точных рекомендаций. Если подключен календарь, ChatGPT сможет подготовить примерную повестку встречи, напомнить вам о необходимости купить подарок на день рождения или предложить рестораны перед предстоящей поездкой.

Pulse доступен только на мобильном приложении; после обкатки доступ будет предоставлен и Plus-подписчикам.

«Состоятельные люди всегда имели доступ к помощникам, которые понимают их предпочтения, предугадывают их потребности и могут помочь во всем: от организации встреч и бронирования поездок до покупки одежды. Мы создаём продукт, который позволит со временем предоставить каждому уровень поддержки, ранее доступный только самым обеспеченным» — написала CEO of Applications Fidji Simo.

===

Этот релиз пропускаем, несите следующий 😢

Читать полностью…

Сиолошная

Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей, не указывают промпты, и кода нет — поэтому воспроизвести на коленке не получится.

Первым делом нужно получить граф. Узлы в графе представляют сущности, а рёбра — отношения между сущностями. Берут граф из Wikidata — базы знаний, принадлежащей Wikipedia и как раз хранящей миллионы связей. В эту базу можно писать запросы на SPARQL — и через фильтрацию по набору правил авторы получают «редкие» сущности. Что означает редкие — не уточняется: это может быть и популярность страницы / количество упоминаний / связей с другими сущностями.

Затем для этих узлов формируют набор признаков. Написано, что делается это через поиск и переходы по ссылкам — видимо, промптят LLM на выделение атрибутов, а не переиспользуют данные из графа Wikidata; хотя одно другого не исключает.

По этим признакам находятся другие узлы графа, то есть другие сущности. Например, находятся другие сериалы, другие вымышленные персонажи и так далее. Для них тоже формируют признаки.

Затем случайным образом выбирают один из обработанных узлов и повторяют процесс: берут признак, делают поиск, добавляют узлы, формируют признаки. Получается маленький подграф. Чем больше итераций делаем — тем он больше, и тем больше связей / признаков получается.

Ну а дальше из этого графа выбирают случайную подгруппу, и, наверное, дают промпт LLM проанализировать эти данные и сгенерировать вопрос с ответом — про это опять ничего не написано, но не думаю, что придумали что-то сложнее разобранного вчера подхода из WebDancer. Замена конкретных дат / мест на неконкретные расплывчатые делается легко.

Таким образом получают датасет SailorFog-QA. Часть сгенерированных вопросов настолько сложна, что даже мощным моделям вроде o3 требуется до 40 вызовов инструментов (запросов на поиск + переходов по ссылке), чтобы прийти к ответу.

Читать полностью…

Сиолошная

В феврале 2023-го года, прямо перед запуском GPT-4, состоялся двухнедельный спринт дизайнерского агентства Area вместе с Sam Altman для разработки новой визуальной идентичности OpenAI. Работа была сосредоточена на основополагающих визуальных концепциях логотипов, символических указаний и дизайна пользовательского интерфейса.

Результаты работы, которая, как я понимаю, никуда не пошла, можно оценить на сайте: https://www.area.tech/openai

Часть картинок с моими комментариями:

1 и 2 — goes hard

3 — Pantheon Oculus with clouds in the sky, очень круто, хоть сейчас на аватарку ставь. Надеюсь появится в каком-нибудь промо-ролике

4 — интересное лого

5 — логотипы GPT-4, не нравится ни один

6 и далее — каким мог бы быть ChatGPT. Некоторые UX решения нравятся, но цветовая схема — 👨‍🦳

Читать полностью…

Сиолошная

🤯

Читать полностью…

Сиолошная

Посмеялся с ситуации:

— увидел рекламу
— перешёл по ссылке
— пролистал пост, кликнул по ссылке на бенчмарк компании
— увидел, что GPT-5 в топе с большим отрывом 🙂

many such cases

невыдуманные истории, о которых невозможно молчать

(а если серьёзно, то если бы вы знали, сколько бенчмарков я вижу, где GPT-5 топ-1, и не пощу и в канал — вы бы расплакались)

Читать полностью…

Сиолошная

На сайте OpenAI есть много вакансий, в некоторых иногда можно углядеть интересное. Например, сейчас — есть вакансия инженера Frontier Evals (способы оценки передовых моделей, создание бенчмарков).

И отдельно есть Frontier Evals — Finance. Интересный домен, не программирование, не медицина, не математика, а финансы! Но деталей мало, просто говорят про сбор задач, где требуются размышления по финансам, «особенно инвестиционный банкинг или частный капитал».

Ждём Tax Bench 🥹 (да, я знаю про TaxCalcBench и AccountingBench)

Читать полностью…

Сиолошная

😃 и это у ребят топовый бенчмарк ещё (в буквальном смысле тир-1), а не какой-то пустяковый. И средства на прогон есть, просто Opus ну очень дорогой

(кстати, им же OpenAI насыпали бесплатных кредитов почти сразу для того, чтобы протестировать o3 / GPT-5)

Big model smell problem

Читать полностью…

Сиолошная

Всем тем, кто последние недели ждал нано-банану — праздник: Google официально выпустили апдейт своей image-editing модели. Всё как и раньше: 0-1-2-N картинок на вход, ваш промпт-команда, и на выход новое отредактированное/созданное изображение.

На LMSys Arena модель идёт с огромным отрывом от Flux и модельки OpenAI, 1362 очка Эло против 1190/1170, что означает, что винрейт примерно 75% 🤯

Где пробовать: Gemini app на вашем смартфоне (в AI Studio пока не вижу)

Анонс

Читать полностью…

Сиолошная

Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он скептичен: у зелёного гиганта есть куда двигаться по всем осям. У них огромная наценка, они могут начать её уменьшать и оставаться конкурентными. У них лучше настроены цепочки поставок, у них огромные объёмы — поэтому себестоимость производства банально ниже. Но самый главый козырь Nvidia — это софт, который позволяет компаниям учить и применять LLM.

Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доход до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную.

Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан?

Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL.

(Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU)

Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе.

===

И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд).

Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей 🥰

Читать полностью…

Сиолошная

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.

Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:

— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения

— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода

— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов

— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен

— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте

— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.

Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.

Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.

Читать полностью…

Сиолошная

Пашка Дуров снова решил приколоться и удалить комментарии у поста выше 🦔

Ваши комментарии оставляйте под этим постом

Читать полностью…

Сиолошная

😄 и в чём он не прав

Читать полностью…

Сиолошная

Sama СДУРЕЛ и решил поиграть в Деда Мороза: Plus юзеры теперь получат 3000 запросов к GPT-5-Thinking в неделю! Это кратно больше, чем все reasoning-модели вместе взятые (o3 / o4-mini) в подписке до этого.

GPU для обслуживания пользователей буквально плавятся: Sama сказал, что процент пользователей, получающих ответы от рассуждающих моделей, значительно увеличивается с каждым днем; например, для бесплатных пользователей этот показатель вырос с <1% до 7%, а для Plus-пользователей plus — с 7% до 24%.

То есть:
1) средний бесплатный пользователь всё ещё не знаком с рассуждающими моделями (но их число растёт -> существенно улучшается опыт)
2) до GPT-5 всего 7% Plus'овиков пользовалось рассуждающими моделями (я думал куда больше)
3) а теперь спрос на GPT-5-Thinking подпрыгнул в 3.5 раз и продолжает расти! Это должно существенно улучшить качество ответов для неискушенных пользователей

Читать полностью…
Subscribe to a channel