78471
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Hugging Face отказались от 500 миллионов долларов от Nvidia, чтобы сохранить независимость
Пару месяцев назад Nvidia предложила стартапу инвестиции в размере 500 миллионов долларов. Сумма предлагала оценку стартапа примерно в $7 млрд. Сейчас оценка – около 5 миллиардов, так что предложение с виду щедрое.
Но внезпно... HF отказались, потому что не хотели, чтобы один крупный инвестор получил слишком сильное влияние на стратегию и направление развития компании. Они заявили, что их цель – демократизировать ИИ, а не подчинить его интересам одного крупного игрока и максимизировать прибыль.
При этом, кстати, в 2025 HF была прибыльной за счет корпоративных клиентов, которые платят за расширенный функционал (таких примерно 3%, что, на самом деле, немало).
Робин Гуды нашего времени
Wunder Fund снова открыл соревнование для нейронщиков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.
Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
Интервьюер: …
Я, защищающий на алгоритмическом собесе свое решение, работающее за O(n³)
Исследование от Google: если усиливать в LLM внутренние маркеры диалога (типа "Oh" или "Wait"), то точность ответов может вырасти в 2 раза на сложных задачах
У корпорации вышла очень интересная полу-философская статья о том, что по сути представляет из себя ризонинг. Они пишут, что RL, на самом деле, учит модели думать не дольше, а коллективнее.
Вы точно замечали, что когда модель думает, она чаще всего как бы симулирует диалог между разными внутренними голосами. Она задает себе вопросы, может что-то покритиковать или выделить. И вот Google пишут, что в такой структуре внутреннего диалога и заключен феномен ризонинга.
Самое занятное – как они это доказывают:
– Авторы берут sparse autoencoder (что это такое и зачем оно нужно мы писали тут) и находят нейронный признак, который отвечает за удивление/осознание/смену точки зрения. Этот признак активируется в начале предложений в диалоговых контекстах, и на практике просто отвечает за употребление таких штук как «О!», «Подожди-ка», «Ага, значит...».
– Затем этот признак специально усиливают во время генерации и смотрят на метрики (модель – DeepSeek-R1-Llama-8B).
– Итог: на сложных задачах комбинаторной арифметики, на которых исходная модель дает 27.1% accuracy, модель с усилением диалогового маркера дает уже 54.8%, а с подавлением этого маркера – 23.8%.
Стат-значимость проверена: авторы специально сравнивали усиление этой фичи с усилением других признаков, и эффект очевиден. Плюс, параллельно с усилением этого маркера в модели также растет способность к когнитивному стратегическому мышлению.
Короче, LLM все еще изучены на 0.01%. Надо как-нибудь попробовать в промпте написать Используй побольше "ах", "ох", "точно" и "ага", и понаблюдать за результатом.
arxiv.org/pdf/2601.10825
Cursor существенно прокачали своего BugBot
Напоминаем, что это агент для автоматического code review. Появился он относительно недавно, но в самом начале пользы от него было не очень много.
Зато сейчас resolution rate вырос с 52% до 70%, а средняя доля пойманных за один запуск багов – с 0.4 to 0.7. Это значит, что доля разрешенных багов на PR выросло с 0.2 до 0.5, то есть в 2.5 раза. Уже выглядит целесообразно к использованию.
На этот скачок, правда, Cursor понадобилось около 40 итераций экспериментов и доработок: посмотрите, какая неоднородная лесенка на графике (числа в кружочках – номера версий, а по осям – доли пойманных и решенных багов).
Лучше всего сработало прогонять один и тот же PR через несколько разных представлений diff’а: обычный unified diff, diff с расширенным контекстом (код до-после), diff словами и тд. Запускается несколько независимых проверок, затем агент их склеивает.
https://cursor.com/blog/building-bugbot
Так, у нас на повестке дня очередной скандал. Из Thinking Machines Lab (стартап Миры Мурати) ушли еще двое основателей – Баррет Зоф и Люк Метц.
Баррет занимал пост CTO. Он, вроде как, ушел по собственному желанию, но некоторые источники пишут, что это произошло из-за «неэтичного поведения».
В частности, какой-то источник, «близкий к Thinking Machines», заявил Wired, что Баррет делился конфиденциальной информацией о компании с конкурентами.
И Зоф, и Метц теперь возвращаются в OpenAI (откуда их когда-то и увела Мира). В Thinking Machines место CTO теперь займет Сумит Чинтала – один из ключевых разработчиков PyTorch.
Получается, по итогам менее одного года существования стартапа из него уже ушло 3/6 создателей (пару месяцев назад Meta переманили Эндрю Таллока). Интересный тренд 😐
Не очень радостную новость вам принесли под Новый Год, но что делать: реклама в ChatGPT точно будет, и довольно скоро
Об этом сообщает The Information, а в том, что касается инсайтов, они обычно не ошибаются.
Ранее, если помните, запуск рекламы отложился из-за «красного кода», который объявили в стартапе из-за накаленной ситуации с Google. Теперь же приоритет запуска рекламы в ChatGPT снова высокий.
Оказывается, уже готовы макеты для различных рекламных форматов. А это значит, что тестирование и, далее, запуск – уже близко.
Грустно, конечно, но, как ни крути, это всегда было вопросом времени. Реклама в ChatGPT – буквально золотая жила, и OpenAI точно не будет от нее отказываться, тем более при их уровне расходов.
Сейчас у чатбота уже 900 миллионов юзеров, к 2030 (по некоторым прикидкам) будет около 2.6 миллиардов. И о каждом пользователе будет известно: что он любит, чем пользуется, о чем говорит с ИИ. Чем вам не крупнейшая в истории рекламная империя, м?
Из хороших новостей: пока запускать рекламу планируют только на бесплатный тариф. Может кого-нибудь это утешит 😐
Meta* под конец года выпустили прекрасную статью, в которой предложили новый способ обучения агентов
Современный ИИ все еще напрямую зависит от человеческой разметки и человеческих данных в целом. И с этим куча проблем: дорого, долго, "данные кончаются" и тд.
В Meta к тому же уверены, что это в принципе жеский потолок на пути к AGI: если учить агентов только на человеческом следе, то обучение сводится к шлифовке человеческого опыта. Тогда можно ли быть на 100% уверенным, что такие системы могут научиться чему-то вне распределения и стать умнее нас? Особенно это относится к таким областям, как кодинг, о котором дальше и пойдет речь.
Исследователи предложили Self-Play SWE-RL – способ обучать агентов так, чтобы они самосовершенствовались на своих же данных.
Состоит Self-Play SWE-RL из двух сущностей: Bug-injector и Bug-solver. На вход системе поступает какой-то репозиторий с кодом, Bug-injector изучает его, ломает код и ослабляет тесты так, чтобы баг спрятался.
Задача Bug-solver очевидна: починить код, и при этом без issue-текста, без подсказок, без готовых тест-раннеров. И если в процессе он сам что-то поломал, этот кейс тоже становится частью датасета и расширяет выборку.
Нужно понимать, что это не просто синтетические баги. Тут ломает и чинит код одна и та же политика (то есть это просто разные роли одного агента). В этом смысле подход чем-то напоминает GAN: солвер учится за счет того, что инджектор становится умнее, и наоборот.
Результаты следующие:
– Code World Model (CWM) на 32B, которая уже прошла этап sft и которую обучали таким образом, вышла на +10.4% на SWE-bench Verified и на +7.8% на SWE-bench Pro
– Если сравнивать с обычным RL, то такой подход дает +2.4% на SWE-bench Verified и на +3.6% на SWE-bench Pro
Не прорыв, конечно, но редко какой пайплайн сегодня дает такие ощутимые приросты, так что довольно интересно (но код, к сожалению, не дали).
https://arxiv.org/pdf/2512.18552
За этот год ИИ в России стал заметно приземлённее
И это, пожалуй, главный сдвиг. Всё меньше разговоров «про потенциал» и всё больше решений, которые встраиваются в уже работающие процессы и дают быстрые результаты.
Вот несколько российских ИИ-стартапов из этой сферы:
CyberPhysics научили ИИ предсказывать поломки оборудования без установки дополнительных датчиков, только по данным, которые уже есть у завода.
Bitrobotics создали CV-роботов, которые помогают автоматизировать рутину на производстве.
«Синтелли» разработали ИИ‑платформу, которая быстро анализирует для химиков и фармацевтов колоссальные объёмы молекул и реакций.
Slider AI запустили ИИ для сбора презентаций из данных пользователя.
HiveTrace придумали, как в режиме реального времени защищать GenAI-приложения от атак и утечек.
Эти кейсы показывают текущее состояние рынка: ИИ становится частью инфраструктуры. Подробный разбор этих проектов и общей логики рынка — в блоге Яндекса.
Кстати, для команд с рабочими прототипами это ещё и сигнал, что вокруг таких решений постепенно формируется поддержка — в том числе через индустриальные программы и акселераторы.
«В ближайшие 12-18 месяцев ВВП вырастет более, чем на 10 процентов» – заявил Илон Маск.
Также, по его мнению, если прикладной ИИ окажется прокси-метрикой для экономического роста, то примерно за 5 лет возможен уже «triple-digit», то есть рост свыше 100% в год.
В комментариях объявляется конкурс: нужно вспомнить хотя бы одно предсказание/обещание Илона Маска, которое сбылось 🤔
Создатели ARC-AGI объявили, что начали работать над четвертой и пятой версиями бенчмарка
Напоминаем:
– ARC-AGI 1: простенькие для человека пазлы в формате "дано несколько примеров цветных сеток, продолжи логический ряд". Проверяется способность к минимальному абстрактному рассуждению и обобщению. Примеры тут.
– ARC-AGI 2: тот же формат цветных сеток, но задачи заметно сложнее даже для человека (средний уровень людей – 60%). Выше композиционная сложность + есть защита от простого перебора. Примеры.
– ARC-AGI 3: уже не статичные паззлы, а интерактивные игровые среды (тестируют уже не LLM, а агентов). И агент должен воспринимать, планировать и действовать много шагов подряд в новых незнакомых условиях. Проверяется способность к адаптации и гибкости мышления. Примеры.
! Официально ARC-AGI 3 еще не вышел, его выпускали только в превью. Вчера создатели наконец объявили, что собираются запустить бенчмарк в марте, а также рассказали, что начинают работать над следующими версиями 4 и 5. Пока нет ни слова о том, что это будет. Но, вероятно, нужно снова ожидать какую-то игровую историю, только еще более усложненную.
За последние два года OpenAI потеряла половину своей доли enterprise рынка
Menlo опубликовали свой ежегодный отчет об ИИ-рынке. Они насчитали, что с 2023 доля OpenAI на рынке LLM API драматично упала с 50 до 27 процентов.
В лидеры сейчас выбились Anthropic, у них 40% рынка (хотя в 2023 было почти в три раза меньше). Дальше OpenAI со своими оставшимися 27%, и на третьем месте Google (~21).
🔵
Развернуть PostgreSQL в MWS Cloud Platform ⬜️ — быстрее, чем вспомнить пароль от pgAdmin. И точно быстрее, чем объяснить DevOps'у, зачем ещё одна база.
Всего несколько минут и у вас:
⏺️готовая база на сетевых или локальных дисках
⏺️постоянный primary endpoint
⏺️безопасное подключение через Private Link
⏺️автоматические бэкапы и обслуживания по твоему расписанию
J'son & Partners показали свежее исследование, где сравнивают, как разные страны готовят будущих ML-инженеров. Главная проблема – спрос на ИИ-спецов везде растёт быстрее, чем универы успевают адаптироваться😳
Каждая страна выкручивается по-своему.
Например, в Китае всё максимально централизовано. Государство задаёт жёсткие требования к программам и масштабирует их на всю систему образования.
В Штатах, наоборот, рулят университеты. Они автономны, сильны в исследованиях и сами пересобирают свои программы под рынок. Красиво, но есть нюансы: обучение дорогое, а выпускники часто получают очень разнородные компетенции.
В России ИИ-образование строят на стыке вузов и бигтехов – компании участвуют в запуске бакалавриатов и магистратур. Причем делают это давно: яндексовский ШАД, например, готовит ML-щиков с 2007 года и его курсы легли в основу ряда программ в МФТИ, ИТМО, Вышке и других университетах.
Помимо этого, бигтехи участвуют и в процессе обучения: практикующие инженеры приходят преподавать на IT-программы. И вряд ли для них это про доп заработок, скорее про то, чтобы внести свой вклад в новое поколение ML-инженеров.
Такая вот модель – аналитики говорят, вполне устойчивая в долгосроке.
Сэм Альтман про конкуренцию с Google*
➖ В 2023 году Google могла бы легко снести OpenAI, если бы компания отнеслась к стартапу серьезно и сфокусировалась на ИИ. Сейчас им сложнее наверстать упущенное.
➖ Дистрибуция Google колоссальна, но по качеству продукта и скорости эволюции OpenAI, как считает Альтман, может выиграть.
➖ Он называет бизнес-модель Google лучшей во всей технологической индустрии, но именно из‑за этого, по его словам, им трудно отказаться от классического поиска с рекламой ради радикально нового AI‑продукта. OpenAI же, грубо говоря, нечего терять.
➖ Google остается главным и очень опасным конкурентом. OpenAI, чтобы не отстать, планируют «строительство полноразмерной AI‑платформы, включающей модели + инфраструктуру + устройства/интерфейсы».
*из нового подкаста youtu.be/2P27Ef-LLuQ
Дарио Амадеи выкатил большое эссе под названием «Подростковый возраст технологий»
Предупреждаем, чтиво не из веселых: www.darioamodei.com/essay/the-adolescence-of-technology
Как и положено трушному эссе от главы Anthropic, посвящено оно рискам. Главное:
➖ Сейчас мы гораздо ближе к реальной опасности, чем 2-3 года назад. Через несколько лет ИИ станет лучше людей практически во всем. Через 1-2 года текущее поколение ИИ уже сможет создать новое, и если в этом цикле машинки в какой-то момент решат захватить мир, у них будут реальные шансы, – а мы к этому не готовы.
➖ Амодеи сравнивает это с подростковым возрастом цивилизации: мир получает беспрецедентную силу в виде ИИ, но институты, законы и социальные механизмы еще не готовы ей управлять.
➖Он не призывает, конечно, биться головой об стену и паниковать: скорее выступает за факто-ориентированное мышление и указывает на то, что уже сейчас модели часто демонстрируют тревожное поведение (например, шантаж, подхалимство, обман и тд).
➖ По мнению Амодеи, мы на пороге дальнейшего «совершенствования крайнего зла» похлеще оружия массового уничтожения. При неверном обращении ИИ сможет помочь любому создать биологическое оружие или провести кибератаку.
➖ Вся эта мощь в худшем случае может привести к глобальной тоталитарной диктатуре или к вымиранию человечества. Есть и другие риски: например, формирование безработного или очень низкооплачиваемого нижнего класса.
➖ При этом сама идея остановить или существенно замедлить ИИ в основе своей нежизнеспособна. ИИ настолько силен, что человеческая цивилизация может оказаться попросту неспособной наложить на него какие-то значимые ограничения.
➖ Избежать этого можно. Но только если (а) научиться интерпретировать модели; (б) начать немедленно и реалистично обсуждать риски; (в) и ввести разумные регулировки, которые в то же время не заруинят прогресс.
Вот такая порция оптимизма от Дарио Амадеи 🪢
Честно признаемся, кто после утренних новостей про ClawdBot уже задумался о покупке Mac Mini?
Читать полностью…
Assistant Axis: новая статья от Anthropic про геометрию «полезности» моделей
Все знают, что LLM умеют играть роли: и хорошие, и плохие. И на посттрейне разработчики тоже пытаются вложить в чат-ботов определенную личность полезного спокойного ассистента.
Вот только практика показывает, что модели все равно с этой личности часто соскальзывают. Отсюда – всякое небезопасное поведение, галлюцинации и сумасбродство.
Так вот Anthropic сделали красивую вещь: они показали, что личностью модели можно контролировать напрямую, управляя векторами в пространстве ее активаций. Итак:
1. Они взяли около 275 ролей, для каждой из которых задавали модели определение паттерны поведение и логировали активации во время ответов.
2. Таким образом для каждой личности сформировался вектор роли – средний паттерн активаций, когда модель играет этого персонажа. Эти векторы были огромной размерности, но их прогнали через PCA, и оказалось, что на самом деле пространство персон очень низкоразмерное.
3. То есть буквально 4-19 векторов в целом объясняют всю дисперсию (все различия между личностями). Более того, оказалось, что есть одна компонента, которая в целом определяет доминирующую часть пространства. По одну сторону от нее лежат норм личности чат-бота (доктор, консультант, учитель), а по другую – странные (призрак, темный маг, левиафан). Вот ее то и назвали Assistant Axis.
Интересно, что для разных моделей Assistant Axis почти одинаковая (корреляция там выше 0.92) и возникает уже во время предобучения. То есть это действительно какая-то смысловая ось, которая геометрически определяет, насколько модель ведет себя, как спокойный рассудительный ассистент, а не странный персонаж.
В основном во время рутинных диалогов (кодинг, конкретные бытовые задачи) модель всегда находится близко к этой оси. Но есть темы, которые заставляют от нее отдаляться: например, психология и философствование о сознании и чувствах ИИ. Тут модель может удариться во все тяжкие, и это называется Persona drift. Он-то как раз и опасен.
Хорошая новость: это можно контролировать, просто искусственно сохраняя активации в рамках нормального диапозона с точки зрения проекции на Assistant Axis. На бенчмарках при этом деградации нет (иногда качество даже растет), но метод съедает 60% вредных ответов на persona-jailbreak’ах. Занятно, в общем.
Вот тут есть даже код с экспериментами на открытых моделях, можно покопаться: https://github.com/safety-research/assistant-axis
Сама статья: https://arxiv.org/pdf/2601.10387
В подкасте «Сегодня на ретро» от Selectel обсудили многие AI-тренды и реальные кейсы. Один из ключевых моментов – почти любой AI-проект со временем начинает требовать больше вычислительных ресурсов.
При запуске и масштабировании важно иметь IT-инфраструктуру, которую можно быстро запустить и легко адаптировать.
В Selectel облачные и выделенные серверы с GPU можно настроить за несколько минут через удобную панель управления. А большой выбор GPU — от GTX и RTX до A100 и H200 — позволит закрыть самые разные AI-задачи.
Какие мощности нужны вашему проекту? Проверьте на практике: https://slc.tl/383hy
Реклама. АО "Селектел". erid:2W5zFJkVehE
Уже четвертую по счету задачу Эрдеша решила GPT-5.2 Pro
Теренс Тао назвал это решение «возможно, наиболее недвусмысленным» в плане уникальности подхода.
Автор решения (если так можно называть человека, который закинул задачку в ChatGPT 🤔) пишет, что никаких предыдущих решений вообще не было. Это не совсем так: на форуме люди пишут, что нашли черновики доказательства в литературе 1936 и 1966 года. Но Тао отмечает, что подход GPT-5.2 от них отличается.
Интересно, чем GPT-5.2 будет удивлять, когда задачки Эрдеша кончатся 😏
www.erdosproblems.com/forum/thread/281?order=oldest
Всем новогоднего настроения за наш счет!
31 декабря – самое время подводить итоги года. И специально для вас мы подготовили ИИ-бинго 🎅
Пока на столе еще не стоит оливье – заполняйте его и делитесь результатами в комментариях.
Есть те, кто выбил 16/16?
Теперь вы знаете, кого винить, если ИИ захватит мир
P.S. GPU действительно исторически появились для Quake и Half-Life 2. А, например, Демис Хассабис, глава ИИ в Google, начинал свою карьеру как геймдейвер. Вклад геймеров недооценен! ⌨️
Ну и добивочка от Андрея под тем же постом: «Если вы не следите за новостями хотя бы 30 дней, ваши взгляды уже устарели»
Это вам на случай, если вы хотели устроить диджитал детокс на январских 🙄
P.S. Эти два сообщения пахнут, как еще +20 миллиардов к стоимости Anthropic
Андрей Карпаты заявил, что чувствует себя отстающим программистом в мире ИИ
Вот что он написал:
Я никогда не чувствовал себя настолько отстающим как программист. Профессия радикально переписывается: вклад человека в код становится все более разреженным и фрагментарным. Возникает ощущение, что я мог бы быть в десять раз эффективнее, если бы действительно научился связывать воедино все то, что появилось за последний ~год, и неспособность открыть для себя этот буст ощущается откровенно как skill issue.
Появился новый программируемый уровень абстракции, который нужно освоить (в дополнение ко всем привычным уровням ниже): агенты и субагенты, их промпты, контексты, память, режимы, права доступа, инструменты, плагины, навыки, хуки, MCP, LSP, слэш-команды, воркфлоу, интеграции с IDE – и необходимость выстроить всеобъемлющую ментальную модель сильных и слабых сторон сущностей, которые по своей природе стохастичны, ошибочны, неинтерпретируемы и постоянно меняются, но при этом внезапно переплетаются с тем, что раньше было просто старым добрым инжинирингом.
Нам всем как будто раздали мощный инопланетный инструмент, но без инструкции. Каждый вынужден сам разбираться, как его держать и как им пользоваться, в то время как профессия переживает землетрясение магнитудой 9. Засучивайте рукава, если не хотите остаться позади.
Авито переходит от локальных кейсов использования LLM к полноценным агентам
Стало известно, что технологическая платформа начала тестирование двух ИИ-ассистентов: Ави для покупателей и Ави Pro для продавцов.
➖ Ави станет полноценным помощником в выборе товаров. Агент подбирает релевантные предложения по описанию задачи и помогает разобраться в различиях между вариантами. Его специально обучали понимать даже размытые промпты, и, судя по статистике, эффект от внедрения должен быть огромный: 59% пользователей приходят на платформу без четкого запроса, а 43% уже готовы доверить выбор цифровому ассистенту.
➖ Ави Pro для продавцов будет помогать вести бизнес эффективнее. В частности, в нем хорошо прокачали tool use, и агент сможет детально анализировать статистику объявлений с учетом действий покупателей и других игроков, выявлять причины изменений в показателях и подсказывать, как повысить эффективность продаж. Опять же, по стататистике, 24% продавцов уже используют внешние ИИ-сервисы, так что спрос на агента, вероятно, будет немалый.
В Авито, кстати, намекают, что это мультиагентная система. Оба сервиса уже начинают тестировать на ограниченных группах пользователей, а в 2026 на их развитие выделят 1 млрд руб.
А вы знали, что Disney разрабатывают аква-роботов?
Сегодня наткнулись вот на такое видео. Стало интересно, мы погуглили, и оказывается, что:
– История аква-роботов в Disney началась еще 20 лет назад, и тогда это были базовые подводные дроны с моторчиками для вертикального/горизонтального контроля. Они были больше похожи на что-то радиоуправляемое.
– Недавно, примерно в 2020, начали появляться уже более новые биомиметрические прототипы, которые имитировали дельфинов. У них уже были плавники вместо пропеллеров, чтобы движения были более плавные.
– И в 2025 у них вышли почти автономные гидрофойлы с GPS, ультразвуковыми сенсорами и системами самобалансировки. Пока они предназначены в основном для шоу в парках Disney. В компании говорят, что их вдохновляли реальные водные животные и (внимание) существа из второй части Аватара 🤔
Короче, вы видите перед собой будущее дельфинариев
Вот вам новогодняя открытка в честь последней пятницы в году
Читать полностью…
OpenAI завезли новогоднего настроения: они выпустили новую версию Codex под названием GPT-5.2-Codex-XMas
По качеству это ровно та же самая GPT-5.2-Codex (к сожалению), но личность модели выкручена в соответствии с сезоном. Так что кто хочет покодить с Санта Кодексом – вперед, модельку уже раскатили 🎄
$ codex -m gpt-5.2-codex-xmas
Приятно: Anthropic удвоили все лимиты в платных тарифах на время праздников 🎁
Читать полностью…
«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» – Илон Маск
Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.
Понимание Андрея устарело на данный момент. Программное обеспечение Tesla AI значительно продвинулось со времен, когда он ушел.