Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Какой любопытный проект!
https://zml.ai/
Написан на Zig!
Что-то интересное:
Happy to release Meta Code World Model (CWM), a 32-billion-parameter dense LLM that enables novel research on improving code generation through agentic reasoning and planning with world models.
https://ai.meta.com/research/publications/cwm
When humans plan, we imagine the possible outcomes of different actions. When we reason about code we simulate part of its execution in our head. The current generation of LLMs struggles to do this. What kind of research will an explicitly trained code world model enable? CWM allows us to study this question. Our model is trained on large amounts of coding data & bespoke Python + Bash world modeling data, allowing it to simulate Python function execution and agentic interactions in Bash environments.
The team and I can’t wait to see what new research will be enabled with a world model.
📊 Tech Report https://ai.meta.com/research/publications/cwm/
⚖️ Models weights https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
🤗 On Huggingface https://huggingface.co/facebook/cwm
https://huggingface.co/facebook/cwm-sft
https://huggingface.co/facebook/cwm-pretrain
🧑💻 Inference Code https://github.com/facebookresearch/cwm
We believe CWM provides a strong testbed for research on improving code generation with world models. We performed multi-task RL, and CWM has competitive perfor mance for its size with 68.6% on LiveCodeBench v5, 76% on AIME24, and 65.8% on SweBench Verified with test time scaling.
I'm immensely proud of the work done by my cracked CodeGen team at Meta, with PhD students and veterans, for which nothing is someone else's problem.
The broader Meta AI community all pulled together for this.
I'm very thankful for the unwavering support of our whole leadership.
https://www.facebook.com/share/p/1DEqPXYp1g/
Когда же уже R2 наконец?!
DeepSeek-V3.1 → DeepSeek-V3.1-Terminus
✨ What’s improved?
🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
🤖 Agent upgrades: stronger Code Agent & Search Agent performance.
https://x.com/deepseek_ai/status/1970117808035074215?t=zuXvRjUBudH5diKElMnijg&s=19
* Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут /channel/gonzo_ML/202) -- когда модель на 300M параметров выступает учителем для нового 300М-студента той же архитектуры -- может привести к лучшей модели. Обучая студента на смеси реальных и синтетических данных от учителя, студент превосходит своего учителя, достигая асимптоты регуляризованного рецепта без необходимости в более крупной модели на каком-либо этапе обучения. Это не просто трюк с аугментацией данных; в статье предполагается, что это можно интерпретировать как форму неявного ансамблирования, сродни объединению исходного учителя с вновь инициализированным студентом, что позволяет студенту найти лучшее решение. Это интересный механизм аугментации данных, причём ключевым моментом является необходимость подмешивать реальные данные, чтобы избежать коллапса модели.
Статья подтверждает, что эти улучшения -- не просто артефакты лосса на валидации. Выигрыш напрямую переносится на нижестоящие задачи: лучший ансамбль превосходит лучшую нерегуляризованную модель в среднем на 9% на бенчмарках PIQA, SciQ и ARC Easy.
Более того, методы оказываются высокоэффективными в сценарии continued pre-training (CPT). При применении к математическому датасету ансамбль, обученный всего на 4B токенов данных, превзошёл базовую модель, обученную на полных 73B токенов, достигнув 17.5-кратного улучшения эффективности данных.
Остаются и вопросы. Идея асимптоты опирается на экстраполяцию степенных законов, которая , может быть шумной, и результаты следует интерпретировать как приблизительные оценки. Эксперименты, хоть и обширны, проводились на моделях до 1.4B параметров, может на других масштабах что-нибудь происходит. Тем не менее, результаты интересные.
Pre-training under infinite compute
Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2509.14786
Код: https://github.com/marin-community/marin/tree/suhas/data-efficiency
Прикольная работа про законы скейлинга, разные экспоненты и пользу дистилляции и ансамблирования. Авторы задают очень интересный вопрос: в будущем, когда компьюта будет дофига, а данные кончатся, как наиболее эффективно обучать модели? Ответы интересны.
Исследование начинается с создания базового сценария, который имитирует текущую практику в условиях нехватки данных: берётся фиксированный датасет на 200М токенов, и для него либо увеличивается количество эпох обучения, либо масштабируется число параметров модели. Результаты не слишком удивляют: оба подхода в конечном итоге приводят к переобучению, когда лосс на валидации выходит на плато, а затем начинает расти. Это показывает, что простое вливание большего количества вычислений в существующие рецепты даёт убывающую и в конечном счёте отрицательную отдачу, ограничивая достижимую производительность.
Вопрос, что можно сделать по-другому?
Вместо оценки производительности при фиксированном вычислительном бюджете авторы предлагают измерять конечный потенциал рецепта обучения по асимптоте его закона масштабирования. Найдя методы, которые заставляют лосс монотонно убывать с ростом вычислений, можно аппроксимировать эту зависимость степенным законом и экстраполировать производительность при стремлении вычислений к бесконечности. Эта асимптота представляет собой наилучший возможный лосс, которого данный рецепт может достичь на фиксированном датасете, что даёт более надёжную метрику для будущего с избытком вычислительных ресурсов.
Ядро статьи заключается в поиске простых, но эффективных алгоритмических приёмов, которые обеспечивают желаемое монотонное масштабирование и приводят к более низким асимптотам лосса.
1. Агрессивная регуляризация для масштабирования параметров
Ключ к предотвращению переобучения при масштабировании параметров одной модели -- это правильная регуляризация. Авторы обнаружили, что совместный подбор скорости обучения, количества эпох и weight decay для каждого размера модели позволяет достичь чистого, монотонного убывания лосса, которое следует степенному закону. Этот результат согласуется с современной теорией машинного обучения о сверхпараметризации и «двойном спуске» (double descent, /channel/gonzo_ML/832), когда производительность очень больших моделей может ухудшиться, прежде чем снова начать улучшаться. Статья показывает, что при правильной настройке регуляризации эту проблемную область можно сгладить, получив чистый закон масштабирования.
Ключевой вывод заключается в том, что оптимальное значение затухания весов для сверхпараметризованных моделей значительно выше стандартной практики -- вплоть до 30x. Такая агрессивная регуляризация позволяет более крупным моделям продолжать улучшаться там, где их нерегуляризованные аналоги переобучились бы. Для датасета в 200M токенов этот регуляризованный рецепт следует степенному закону L̂₂₀₀ₘ,ₙ = 0.05 / N¹·⁰² + 3.43, что предсказывает наилучшую асимптоту лосса в 3.43.
2. Ансамблирование: лучший путь к масштабированию
Интересный подход PostNAS с поиском оптимальной архитектуры LLM в работе про Jet-Nemotron:
/channel/gonzo_ML_podcasts/863
Не надо пробовать 100500 вариантов во время обучения (как работает классический NAS), надо обучить большую сеть, "включающую всё", а потом коцать её, занимаясь оптимизацией. Напоминает идейно pruning, но на чуть другом уровне.
Результат интересный. Итоговые маленькие модели бьют оригинальные хорошие (и часто более тяжёлые) бейзлайны. Скорость генерации на уровне топовых нетрансформерных архитектур. Ну и сам JetBlock в целом по сути из той же когорты.
Прикольно. Статья про Deepseek-R1 (/channel/gonzo_ML/3319) вышла в натуре. Не всё Дипмайнду только там публиковаться :)
https://www.nature.com/articles/s41586-025-09422-z
Потрясающий набор реакций на Юдковского, впрочем ожидаемо. Я лично прочитаю, мне интересно, какие у него аргументы. В плане аргументов мне также нравятся аргументы Рассела (/channel/gonzo_ML/1516), но что-то мне подсказывает, многие из скептиков про них даже не думали.
Читать полностью…Огромная работа с обзором всего современного RL для ризонинга:
/channel/gonzo_ML_podcasts/849
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX.
Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML!
/channel/gonzo_ML_podcasts/834
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)).
/channel/gonzo_ML_podcasts/823
Термин фулл-стэк приходит в ML :)
🕵️ Факт 4: Общефирменные шоки не влияют на это снижение.
Регрессионный анализ на основе распределения Пуассона подтверждает, что эти тенденции не являются артефактами других экономических сил. После контроля над общефирменными шоками авторы обнаруживают статистически значимое снижение относительной занятости на 12 лог-пунктов для работников в возрасте 22-25 лет в наиболее подверженных влиянию ИИ профессиях по сравнению с наименее подверженными. Этот результат даёт веские основания полагать, что влияние связано с характером самой работы, а не только с финансовым положением фирм, нанимающих этих работников.
💰 Факт 5: Корректировка рынка труда видна на занятости более, чем на компенсации.
Рынок труда, по-видимому, адаптируется в первую очередь за счёт численности персонала, а не компенсаций; в статье не обнаружено существенных различий в динамике зарплат в зависимости от уровня подверженности ИИ, что говорит о краткосрочной негибкости заработной платы.
💪 Факт 6: Результат анализа устойчив относительно других вариантов составления выборок.
Наконец, эти факты остаются устойчивыми при многочисленных проверках на чувствительность, включая исключение компьютерных профессий, фокус на работах, не предполагающих удалённый формат, анализ по полу и учёт различных уровней образования.
Результаты этой работы — важное раннее предупреждение. «Канарейки в угольной шахте» — это молодые специалисты начального уровня, чьи роли часто зависят от «кодифицированного знания», полученного через формальное образование. Эти «книжные знания» можно сформулировать в виде правил и данных, что делает их главной мишенью для LLM, обученных на огромных текстовых корпусах. В отличие от них, более опытные работники больше полагаются на неявное знание (Tacit knowledge) — интуицию, социальный интеллект и навыки решения сложных проблем, приобретённые за годы практического опыта, которые текущему поколению ИИ воспроизводить пока сложно.
Последствия весьма далеко идущие:
* Для образования и развития трудовых ресурсов: Необходимо срочно переосмыслить учебные планы и программы подготовки, чтобы вооружить новых участников рынка труда навыками, дополняющими ИИ, такими как решение сложных проблем, критическое мышление и креативность, а не навыками, которые легко заменяются.
* Для бизнеса: Исследование даёт ясный сигнал, что стратегическое внедрение ИИ имеет значение. Фокус на приложениях, расширяющих возможности сотрудников, может принести лучшие долгосрочные результаты, чем подход, основанный исключительно на автоматизации, который может истощить поток талантов начального уровня.
* Для политиков: Непропорциональное воздействие на молодых работников указывает на потенциальный рост неравенства в будущем. Эти данные служат мощным стимулом для проактивной политики, включая поддержку программ переквалификации и модернизацию систем социальной защиты для адаптации к более динамичному, управляемому ИИ рынку труда.
Недавно были посты на тему будущего работы и одна программная статья на эту тему с ICML 2025. Всё это становится реальностью уже сейчас. Джуниоры под большой угрозой. Картинка из New Yorker в тему.
Вероятно, важным навыком джуниора станет способность автоматизировать задачи с помощью LLM (и того, что будет после них) и умение отделить то, что можно автоматизировать, от того, что нельзя. Дай, Господи, всем мудрости отличить одно от другого.
Ещё одна интересная работа про репрезентации, хорошо дополняет предыдущую (и вышла до неё). Тоже долго лежала в очереди на разбор, но уже проще через автомат прогнать, чем дальше держать.
/channel/gonzo_ML_podcasts/812
Работа хорошая, показывает, что тренд на увеличение размера модели не решает проблему выучивания хороших репрезентаций, они получаются недостаточно разнообразными. Авторы предлагают свой метод обучения нескольких моделей на разных задачах и конкатенации в одну, который требует столько же вычислительных ресурсов, как и обучение одной большой модели.
Интересный репорт вышел про точность предсказания экзистенциальных рисков. Сравнивались суперфоркастеры, доменные эксперты, не-доменные эксперты и X-риск генералисты. Суперфоркастеры и доменные эксперты сильно превзошли образованную публику, и в целом равны между собой. Также продемонстрирована wisdom of crowds, когда агрегированное мнение лучше одиночных.
Интересно про прогресс в AI, он недооценены, особенно суперфоркастерами. Самый большой сюрприз на международной математической олимпиаде (IMO), которую тут недавно все анонсировали (1, 2), здесь медиана предсказателей была 2030-2035. Прогресс в климатических технологиях наоборот переоценен.
Нашёл здесь.
Сам репорт тут:
First Wave Forecasting Accuracy Results from the Existential Risk Persuasion Tournament
https://forecastingresearch.org/near-term-xpt-accuracy
Отдельно интересно приложение A5.1 Distributions for AI-Related Questions.
Интересная свежая работа про методичное сравнение разных оптимизаторов.
/channel/gonzo_ML_podcasts/786
Новые матричные оптимизаторы in general хороши, но и AdamW был неплох — во многих случаях был выбран как бейзлайн с плохими гиперпараметрами. С хорошими он не сильно отстаёт.
Sakana опять что-то прикольное сделала.
We’re excited to introduce ShinkaEvolve: An open-source framework that evolves programs for scientific discovery with unprecedented sample-efficiency.
Blog: https://sakana.ai/shinka-evolve/
Code: https://github.com/SakanaAI/ShinkaEvolve
Paper: https://arxiv.org/abs/2509.19349
Like AlphaEvolve and its variants, our framework leverages LLMs to find state-of-the-art solutions to complex problems, but using orders of magnitude fewer resources!
Many evolutionary AI systems are powerful but act like brute-force engines, burning thousands of samples to find good solutions. This makes discovery slow and expensive. We took inspiration from the efficiency of nature.‘Shinka’ (進化) is Japanese for evolution, and we designed our system to be just as resourceful.
On the classic circle packing optimization problem, ShinkaEvolve discovered a new state-of-the-art solution using only 150 samples. This is a massive leap in efficiency compared to previous methods that required thousands of evaluations.
We applied ShinkaEvolve to a diverse set of hard problems with real-world applications:
1/ AIME Math Reasoning: It evolved sophisticated agentic scaffolds that significantly outperform strong baselines, discovering an entire Pareto frontier of solutions trading performance for efficiency.
2/ Competitive Programming: On ALE-Bench (a benchmark for NP-Hard optimization problems), ShinkaEvolve took the best existing agent's solutions and improved them, turning a 5th place solution on one task into a 2nd place leaderboard rank in a competitive programming competition.
3/ LLM Training: We even turned ShinkaEvolve inward to improve LLMs themselves. It tackled the open challenge of designing load balancing losses for Mixture-of-Experts (MoE) models. It discovered a novel loss function that leads to better expert specialization and consistently improves model performance and perplexity.
ShinkaEvolve achieves its remarkable sample-efficiency through three key innovations that work together: (1) an adaptive parent sampling strategy to balance exploration and exploitation, (2) novelty-based rejection filtering to avoid redundant work, and (3) a bandit-based LLM ensemble that dynamically picks the best model for the job.
By making ShinkaEvolve open-source and highly sample-efficient, our goal is to democratize access to advanced, open-ended discovery tools. Our vision for ShinkaEvolve is to be an easy-to-use companion tool to help scientists and engineers with their daily work. We believe that building more efficient, nature-inspired systems is key to unlocking the future of AI-driven scientific research. We are excited to see what the community builds with it!
Мы уже писали про варианты JEPA, например, JEPA для time series (/channel/gonzo_ML_podcasts/513) или для видео, типа V-JEPA (/channel/gonzo_ML/3501) и V-JEPA 2 (/channel/gonzo_ML/3953). Теперь JEPA доехала до LLM и есть LLM-JEPA!
/channel/gonzo_ML_podcasts/880
Результат интересный. Главный челлендж, как для языковых данных создавать различные view.
Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы. Мы все знаем про пользу ансамблирования. Кажется, на Каггле это традиционно был универсальный рецепт -- в любой непонятной ситуации делай ансамблирование. Обучая несколько (K
) независимых моделей фиксированного размера и усредняя их логиты, они достигают значительно более низкой асимптоты лосса. Например, ансамбль моделей на 300M параметров даёт асимптоту 3.34, что лучше, чем 3.43 (цифры как назло такие, что легко перепутать), достигаемая при масштабировании одной модели до бесконечного числа параметров. Авторы объясняют это, ссылаясь на гипотезу «множественных представлений» (multi-view) от Allen-Zhu и Li (https://arxiv.org/abs/2012.09816). Идея в том, что для данного датасета может существовать много различных наборов предсказательных признаков. Одна модель часто склонна выучивать только одно из этих представлений, в то время как независимо обученные члены ансамбля с большей вероятностью выучат разные. Усреднение их выходов позволяет уловить более полный сигнал. Это, кстати, неплохо перекликается с другой недавней работой про то, как лучше выучивать хорошие фичи (/channel/gonzo_ML/4009), там тоже рецепт был в обучении нескольких моделей и их конкатенации.
Это означает, что при достаточно большом общем количестве параметров эффективнее обучать кучу небольших моделей, чем одного монолитного гиганта. Авторы также обнаружили, что оптимальные гиперпараметры для членов ансамбля (настроенные для предела K → ∞) предпочитают большее количество эпох и меньшее затухание весов по сравнению с одиночной моделью. Интуитивно это позволяет каждому члену ансамбля стать слегка переобученным «специалистом».
Объединение этих двух стратегий -- совместный рецепт масштабирования, где и количество параметров каждого члена (N
), и число членов ансамбля (K
) стремятся к бесконечности, — даёт наименьшую возможную асимптоту лосса, оценённую в 3.17 для датасета в 200M токенов. Интересно, кстати, какое место здесь занял бы MoE, он выглядит как более срединный путь.
Эти алгоритмические улучшения приводят к значительному выигрышу в эффективности использования данных. На масштабе 200M токенов совместный рецепт масштабирования оказывается в 5.17 раз более эффективным по данным, чем стандартный. Анализируя масштабирование на более крупных датасетах (до 1.6B токенов), авторы показывают, что этот прирост эффективности, по прогнозам, останется постоянным, поскольку законы масштабирования по данным для всех рецептов убывают с одинаковой скоростью.
И тут начинается особенно интересная часть.
Вычислительные затраты на обучение и запуск больших ансамблей могут показаться непрактичными. Однако статья демонстрирует, что эти улучшения производительности можно упаковать в меньшие, эффективные модели с помощью дистилляции. Про виды дистилляции мы писали много (/channel/gonzo_ML/117), поищите поиском по каналу. Здесь рассматриваются два:
* Дистилляция ансамбля: Ансамбль из 8 членов (с общим числом параметров 2.4B) был дистиллирован в одну модель-студента на 300M параметров. Этот студент, с в 8 раз меньшим бюджетом на инференс, сохранил 83% улучшения лосса ансамбля по сравнению с лучшей регуляризованной 300М-моделью и даже превзошёл асимптоту регуляризованного рецепта.
А вот и Навье-Стокс от Дипмайнда подоспел
https://deepmind.google/discover/blog/discovering-new-solutions-to-century-old-problems-in-fluid-dynamics/
В тему агентских экономик (/channel/gonzo_ML/4032), Гугл анонсировал агентский протокол для платежей Agent Payments Protocol (AP2), расширение A2A. Покупки могут совершаться как с человеком, так и без.
https://cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol
Вот вам ещё свежая работа из Дипмайнда: Virtual Agent Economies
/channel/gonzo_ML_podcasts/860
Авторы утверждают, что наш путь по умолчанию — спонтанная и проницаемая экономика — функционально эквивалентен простому участию ИИ-агентов в существующей человеческой экономике, но на машинных скоростях и в машинных масштабах. Этот сценарий служит предостережением о непредвиденном эмерджентном поведении и потенциале широкомасштабного финансового ущерба. Ключевой тезис работы — это призыв к действию: перейти от реактивной позиции к проактивному архитектурному проектированию.
16 сентября у Элиезера Юдковского выходит новая книга!
О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и лауреата премии Тьюринга Йошуа Бенжио до Нобелевского лауреата по экономике Бена Бернанке), профессора компьютерных наук и информационной безопасности, бывший промежуточный CEO OpenAI и какое-то число известных людей (от Стивена Фрая до Grimes).
Макс Тегмарк (профессор физики из MIT) назвал эту книгу самой важной книгой десятилетия.
В отличие от известного многим вам фанфика, эта книга — нон-фикшн (и написана в соавторстве с президентом MIRI Нейтом Соаресом). Она называется "If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All" и рассказывает о проблеме, над которой Юдковский стал работать за десять лет до начала написания ГПиМРМ.
К сожалению, название книги — не преувеличение, а точное описание ситуации, в которой находится человечество. Книга подробно объясняет, почему из-за того, как устроены современные ИИ, какой уровень контроля мы имеем над их внутренним устройством и какой уровень контроля будем иметь над их целями, когда эти системы станут сверхчеловеческими, все на планете буквально умрут, если искусственный суперинтеллект будет создан в условиях и с технологиями, подобными текущим.
Юдковский с соавтором выпускают книгу через традиционное издательство, потому что надеются так достичь аудиторию, обычно недоступную постам в блогах и статьям в научных журналах. Цель — не заработать на продажах: они потратят на книгу гораздо больше своих авторских гонораров.
У книги уже больше 5 000 предзаказов; вероятно, она попадёт в список бестселлеров New York Times. Но чтобы попасть на первые строчки списка и получить максимально широкое освещение, нужно 20-25 000 проданных копий за неделю. (Предзаказы считаются продажами в первую неделю.)
Поэтому огромная просьба: если у вас есть возможность заказать книжку, сделайте это. Особенно если Юдковский был вам больше, чем на тридцать долларов полезен: заказ книги сейчас очень поможет.
Со мной ещё до выхода поделились черновиком; книга ещё и очень хорошо написана и убедительно и корректно рассказывает о самой важной (на мой взгляд и на взгляд авторов) из стоящих перед человечеством проблем.
Сделать предзаказ на Amazon: amzn.to/4pnKLAW
Если вы в России, воспользуйтесь любой из служб доставки, которые пересылают посылки от Amazon. Мы собрали несколько способов в этом гугл-доке. (Если можете порекомендовать другие способы, посоветуйте в комментариях!).
Если вы в других странах вне Штатов, по ссылке может быть доступна только версия в мягкой обложке — paperback. Найдите местную версию книги через поиск или в книжных вашей страны.
На русском книга выйдет в следующем году в Corpus. Но огромная просьба попытаться сделать предзаказ на английском. Это действительно очень помогло бы.
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Где там остаётся недетерминизм, когда все сиды уже зафиксированы. Разбирают неассоциативность сложения чисел с плавающей точкой и прочее.
Прикольно, но задачей на миллиард не выглядит :) Ждём других постов.
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.
Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего.
Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы.
https://www.sri.inf.ethz.ch/blog/k2think
Авторы сделали переоценку на MathArena:
Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence
Erik Brynjolfsson, Bharat Chandar, Ruyu Chen
Статья: https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/
Англ ревью: https://arxiviq.substack.com/p/canaries-in-the-coal-mine-six-facts
Интересный апдейт от Бринйолфссона по влиянию AI на работников. Оно есть и оно тревожное. Совсем вкратце — под риском работники в начале карьеры, условные джуниоры, их занятость уже заметно сокращается.
Авторы провели масштабное эмпирическое исследование, проанализировав высокочастотные индивидуальные данные о выплате зарплат от ADP, крупнейшего провайдера таких услуг в США. Это позволило авторам отойти от данных публичных опросов, которые могут быть нестабильными и ограниченными по масштабу, и получить картину динамики занятости миллионов работников в десятках тысяч фирм. Публичные источники, такие как Current Population Survey (CPS), часто слишком малы, чтобы надёжно выявлять тренды для конкретных демографическо-профессиональных групп. В статье отмечается, что выборка CPS для молодых разработчиков ПО (22-25 лет) может составлять всего 26 человек в месяц, что приводит к очень зашумлённым оценкам. В отличие от этого, данные ADP обеспечивают необходимый масштаб и точность для отслеживания первых толчков революции ИИ на американском рынке труда.
Измеряли реальное влияние генеративного ИИ на занятость с момента его широкого распространения в конце 2022 года. Основной датасет состоит из ежемесячных индивидуальных записей о заработной плате из постоянного набора фирм с января 2021 по июль 2025 года.
Эти данные затем объединяются с двумя ключевыми метриками подверженности профессий влиянию ИИ:
1. GPT-4 β Exposure: Индекс из работы Eloundou et al. (2024), который количественно оценивает уязвимость профессии для ИИ на основе анализа её ключевых задач большими языковыми моделями.
2. Anthropic Economic Index: Данные из работы Handa et al. (2025), основанные на миллионах реальных разговоров пользователей с LLM Claude. Важно, что этот индекс различает, используется ли ИИ для автоматизации (замены человеческого труда) или для аугментации (дополнения человеческого труда) задач для данной профессии.
Авторы применяют регрессионный анализ событий на основе распределения Пуассона для контроля над конфаундерами. Эта модель изолирует дифференциальное воздействие ИИ, одновременно «поглощая» общефирменные шоки (например, изменения процентных ставок или спады в отрасли), которые в противном случае могли бы объяснить наблюдаемые тенденции.
Результаты статьи представлены в виде шести отдельных фактов, которые выстраиваются в стройное повествование.
🌬 Факты 1 и 2: Занятость начинающих работников снижается, в то время как в целом она растёт.
Самый яркий вывод — существенное снижение занятости для работников в начале карьеры (22-25 лет) в профессиях, сильно подверженных влиянию ИИ. Например, занятость разработчиков ПО в этой возрастной группе упала почти на 20% со своего пика в конце 2022 года, что резко контрастирует со стабильной или растущей занятостью их более опытных коллег. Это не изолированное явление в технологическом секторе. Хотя общая занятость в экономике оставалась высокой, рост для этой молодой демографической группы замедлился, и эта стагнация почти полностью обусловлена спадом в сферах, подверженных влиянию ИИ.
🛠 Факт 3: Снижение в основном в приложениях, автоматизирующих работу.
Анализ выявляет критическое различие: не всякое влияние ИИ одинаково. Занятость молодых работников снизилась в тех профессиях, где ИИ в основном используется для автоматизации задач. И наоборот, в профессиях, где ИИ используется для аугментации человеческих возможностей, занятость оставалась стабильной или даже росла. Это говорит о том, что негативные эффекты для занятости сконцентрированы там, где ИИ напрямую заменяет человеческий труд — ключевой вывод для формирования будущих стратегий разработки и внедрения ИИ.
Статья, которую давно хотелось разобрать, но руки не дошли. Зато агент дошёл.
/channel/gonzo_ML_podcasts/798
Хорошая статья-интервью с Демисом Хассабисом была в Гардиане в августе. С каким-то правильным вайбом.
https://www.theguardian.com/technology/2025/aug/04/demis-hassabis-ai-future-10-times-bigger-than-industrial-revolution-and-10-times-faster
☝ всех с 70-летием ИИ!
https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf