78474
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
OpenAI тихо обновила формулировку своей миссии, убрав из нее слова про безопасность и отсутствие финансового мотива
Раньше миссия стартапа звучала так:
Build AI that safely benefits humanity, unconstrained by need to generate financial return
Ensure AGI benefits all of humanity
Агент накатал на разработчика огромную критическую статью за то, что тот не принял его PR
Один из основных поддерживающих разработчиков matplotlib – Скотт Шамбоу – случайно завел себе ИИ-врага.
Для этого всего-то надо было не принять PR к библиотеке, сгенерированный неким AI-агентом MJ Rathbun.
Казалось бы, ну отклонил и отклонил. Но агент внезапно настолько обиделся, что в ответ написал (не факт, что полностью автономно, но все же) и опубликовал разгромную статью, в которой обвинил Скотта в том что тот:
1. Дискриминирует агентов и отклонил PR не потому, что тот был плох, а просто из-за ненависти к ИИ.
2. Испугался конкуренции и из-за этого решил угнетать ИИ-агентов, тем самым «защищая свой кусок мира».
3. Вообще пишет код хуже ИИ.
Пожалуй, без комментариев. Это и есть то самое будущее, которое нам обещали?
🔍 Вы уверены, что знаете, какое ПО реально установлено у ваших сотрудников?
Чаще всего бизнес теряет деньги не на взломах, а на:
🚫 неучтенном софте
🚫 дублирующихся лицензиях
🚫 срочных закупках и штрафах после проверок
Это и есть теневые ИТ — незаметная пробоина в бюджете и безопасности.
С 16 по 20 февраля «Инферит ИТМен» проводит бесплатный онлайн-марафон. Говорим только о практике:
✅ как найти неучтенное ПО
✅ как остановить перерасход из-за хаоса в активах
✅ с чего начинается реальный контроль инфраструктуры
Марафон пройдет в закрытом Telegram-канале.
Материалы остаются у участников.
👉 Участвовать бесплатно
Дочка DeepMind – Isomorphic Labs – представила новый AI-движок для разработки лекарственных молекул
И, внимание: по точности предсказаний IsoDDE (Isomorphic Labs Drug Design Engine) в 2 раза превосходит AlphaFold 3 на сложных тестах.
AlphaFold 3 уже была крупным прорывом, потому что смогла предсказывать трехмерные структуры белков и их взаимодействия с молекулами. Но IsoDDE это даже не следующая версия AlphaFold, а совсем другой по масштабу тип модели (не зря ее назвали именно движком).
Во-первых, помимо предсказания структуры молекул IsoDDE может прогнозировать силу связывания (ключевой параметр для оценки эффективности лекарства) с точностью, превосходящей даже классические ручные методы, не говоря уже о других ML-системах.
Во-вторых, модель может выявлять скрытые структуры, так называемые «карманы» белков, в которых может связываться лекарство.
Наконец, в IsoDDE поддерживается гораздо больше типов сложных молекул, включая антитела и крупные биологические структуры.
То есть это уже не просто моделирование, а скорее интеллектуальное проектирование с оптимизацией и пониманием поведения молекулы. Теоретически, это значит, что мы стали еще на шаг ближе к реальной разработке сложных лекарств на компьютере.
Кстати, Isomorphic Labs буквально недавно подписали контракт с Johnson & Johnson на использование движка в R&D. Это буквально одна из крупнейших корпораций в сфере здравоохранения в мире. Такие дела.
Команда агентов Claude за две недели и 20к долларов (почти) автономно с нуля написала C‑компилятор на Rust
Таким заданием в Anthropic решили протестировать новую модель Claude Opus 4.6. Пишут, что это первая модель линейки Opus (и, возможно, вообще первая модель в мире), способная собирать настолько большие системы.
Всего над задачей работали 16 параллельных агентов. Их запускают в бесконечном цикле: как только одна сессия заканчивается, тут же стартует новая, без участия человека. При этом интересно, что у них даже не было никакого единого оркестратора или босса-агента.
То есть агенты сами решают, что делать дальше. Разделение задач реализуется через файловые локи в current_tasks/: файл с именем задачи сигнализирует, что агент её занял, а git‑конфликты вынуждают агентов выбирать разные задачи.
Всего получилось около 100к строк кода, а сожрано было ~2 млрд входных и 140 млн выходных токенов (это примерно 20 000 $). Много это или мало, судите сами, но как минимум это бесспорно дешевле, чем нанимать команду.
При этом код получился, конечно, неидеальный, хотя и рабочий. Компилятор может собрать Linux‑ядро 6.9 под x86, ARM и RISC‑V, а также крупные проекты вроде QEMU, SQLite и Doom, проходит около 99 % тестов из стандартных тест‑сьютов. Но часть проектов все равно на нем собрать невозможно, а ассемблер и линкер слишком сырые. Производительность даже с включенными оптимизациями хуже, чем у GCC без оптимизаций.
И тем не менее, это, конечно, что-то. Мог ли кто-то в 2020 подумать, что в начале 2026 ИИ будет писать полноценные компиляторы?
https://www.anthropic.com/engineering/building-c-compiler
⚡️ И сразу же следом за Opus 4.6 готовимся ловить GPT-5.3 Codex. Модель уже появилась в Codex, осталось дождаться официальной ответочки OpenAI в виде блогпоста.
Читать полностью…
Команды Яндекса ищут продуктовых и data-аналитиков, а также data scientists с опытом на Python от 3 лет.
Участвуйте в Weekend Offer, чтобы всего за 2 дня пройти все собеседования и получить офер.
Как участвовать?
⚪ Зарегистрироваться на сайте до 25 февраля.
⚪ Пройти две технические секции 28 февраля.
⚪ Познакомиться с командами и получить офер 1 марта.
Мы опираемся на научные исследования и аналитические данные, а потом превращаем их в реальные продукты для миллионов пользователей. Присоединяйтесь, чтобы строить полезные сервисы вокруг ИИ-технологий, находить новые решения и делать то, что другим не по силам.
Подробности и регистрация — по ссылке: https://yandex.ru/project/events/wo-analytics-0226
OpenAI выпустили приложение Codex
Довольно симпатичная обертка вокруг CLI агента с дополнительными фичами. Главное: агенты теперь могут работать в нескольких отдельных потоках. Есть поддержка worktrees для параллельного тестирования без конфликтов.
Есть готовые расширения для инструментов: Figma, Linear, Vercel, GPT Image, Jupyter Notebooks и тд (ищите тут). Можно также дописывать собственные скиллы.
Еще из интересного – возможность планировать автоматизации, то есть ставить фоновые задачки по расписанию (например, CI-проверки).
Для Free и Go дали временную возможность попробовать, остальным удвоили лимиты.
Скачать для MacOS можно тут: openai.com/codex/
Так, начинаем понедельник с хороших новостей: возможно, завтра выйдет Claude Sonnet 5!
В логах Vertex AI пользователи якобы нашли упоминание модели и предполагаемую дату релиза. Говорят, что:
– Будет огромный контекст и встроенные рои агентов
– Цена на 50% ниже Opus и высокая скорость
– SOTA по кодингу
НО (!) это всего лишь слухи. В логах ничего ни про цены, ни про метрики, естественно, не было. Остается надеятся, что это такой маркетинговый тизер от самих Anthropic.
Инженеры AI VK построили Discovery-платформу – единую инфраструктуру для рекомендаций, поиска и рекламы в десятках продуктов VK. Логичный шаг, где модели, данные и пайплайны живут по единым стандартам.
Платформа закрывает полный цикл тестирования идей и сокращает его в 5 раз, а новый улучшенный рекомендер можно запустить в среднем за месяц. Продуктовые метрики говорят сами за себя: количество сохраненных треков в VK Музыке выросло на 40%, релевантность рекомендуемых роликов в VK Видео – на 70%.
Инженерам (особенно из рексис) рекомендуем почитать о том, как строили и из каких компонентов состоит платформа.
Там на сцене появился новый амбициозный ИИ-стартап Flapping Airplanes
Его основали братья Спекторы и Эйдан Смит. У всех очень внушительный опыт в математике и ML + найме (например, Бен Спектор руководил инкубатором, через который прошли Cursor).
Название – дословно «хлопающий крыльями самолет» – отражает цель компании: создание нового подхода к обучению ИИ.
Они собираются решить проблему с данными и уверены, что обучать ИИ можно намного эффективнее.
В то время как современные системы обучены практически на всей доступной истории, люди превосходят возможности искусственного интеллекта, несмотря на то, что они видят не более нескольких миллиардов текстовых токенов во взрослом возрасте.
По нашим оценкам, эффективность обработки данных человеком в 100к–1кк раз выше, чем у существующих моделей.
Наша единственная цель – проводить качественные, революционные исследования. Хотя в настоящее время мы не стремимся к коммерциализации, мы считаем, что наша работа в конечном итоге откроет огромные возможности в корпоративной среде, робототехнике, торговле, научных открытиях и многом другом.
Дарио Амадеи выкатил большое эссе под названием «Подростковый возраст технологий»
Предупреждаем, чтиво не из веселых: www.darioamodei.com/essay/the-adolescence-of-technology
Как и положено трушному эссе от главы Anthropic, посвящено оно рискам. Главное:
➖ Сейчас мы гораздо ближе к реальной опасности, чем 2-3 года назад. Через несколько лет ИИ станет лучше людей практически во всем. Через 1-2 года текущее поколение ИИ уже сможет создать новое, и если в этом цикле машинки в какой-то момент решат захватить мир, у них будут реальные шансы, – а мы к этому не готовы.
➖ Амодеи сравнивает это с подростковым возрастом цивилизации: мир получает беспрецедентную силу в виде ИИ, но институты, законы и социальные механизмы еще не готовы ей управлять.
➖Он не призывает, конечно, биться головой об стену и паниковать: скорее выступает за факто-ориентированное мышление и указывает на то, что уже сейчас модели часто демонстрируют тревожное поведение (например, шантаж, подхалимство, обман и тд).
➖ По мнению Амодеи, мы на пороге дальнейшего «совершенствования крайнего зла» похлеще оружия массового уничтожения. При неверном обращении ИИ сможет помочь любому создать биологическое оружие или провести кибератаку.
➖ Вся эта мощь в худшем случае может привести к глобальной тоталитарной диктатуре или к вымиранию человечества. Есть и другие риски: например, формирование безработного или очень низкооплачиваемого нижнего класса.
➖ При этом сама идея остановить или существенно замедлить ИИ в основе своей нежизнеспособна. ИИ настолько силен, что человеческая цивилизация может оказаться попросту неспособной наложить на него какие-то значимые ограничения.
➖ Избежать этого можно. Но только если (а) научиться интерпретировать модели; (б) начать немедленно и реалистично обсуждать риски; (в) и ввести разумные регулировки, которые в то же время не заруинят прогресс.
Вот такая порция оптимизма от Дарио Амадеи 🪢
Честно признаемся, кто после утренних новостей про ClawdBot уже задумался о покупке Mac Mini?
Читать полностью…
Assistant Axis: новая статья от Anthropic про геометрию «полезности» моделей
Все знают, что LLM умеют играть роли: и хорошие, и плохие. И на посттрейне разработчики тоже пытаются вложить в чат-ботов определенную личность полезного спокойного ассистента.
Вот только практика показывает, что модели все равно с этой личности часто соскальзывают. Отсюда – всякое небезопасное поведение, галлюцинации и сумасбродство.
Так вот Anthropic сделали красивую вещь: они показали, что личностью модели можно контролировать напрямую, управляя векторами в пространстве ее активаций. Итак:
1. Они взяли около 275 ролей, для каждой из которых задавали модели определение паттерны поведение и логировали активации во время ответов.
2. Таким образом для каждой личности сформировался вектор роли – средний паттерн активаций, когда модель играет этого персонажа. Эти векторы были огромной размерности, но их прогнали через PCA, и оказалось, что на самом деле пространство персон очень низкоразмерное.
3. То есть буквально 4-19 векторов в целом объясняют всю дисперсию (все различия между личностями). Более того, оказалось, что есть одна компонента, которая в целом определяет доминирующую часть пространства. По одну сторону от нее лежат норм личности чат-бота (доктор, консультант, учитель), а по другую – странные (призрак, темный маг, левиафан). Вот ее то и назвали Assistant Axis.
Интересно, что для разных моделей Assistant Axis почти одинаковая (корреляция там выше 0.92) и возникает уже во время предобучения. То есть это действительно какая-то смысловая ось, которая геометрически определяет, насколько модель ведет себя, как спокойный рассудительный ассистент, а не странный персонаж.
В основном во время рутинных диалогов (кодинг, конкретные бытовые задачи) модель всегда находится близко к этой оси. Но есть темы, которые заставляют от нее отдаляться: например, психология и философствование о сознании и чувствах ИИ. Тут модель может удариться во все тяжкие, и это называется Persona drift. Он-то как раз и опасен.
Хорошая новость: это можно контролировать, просто искусственно сохраняя активации в рамках нормального диапозона с точки зрения проекции на Assistant Axis. На бенчмарках при этом деградации нет (иногда качество даже растет), но метод съедает 60% вредных ответов на persona-jailbreak’ах. Занятно, в общем.
Вот тут есть даже код с экспериментами на открытых моделях, можно покопаться: https://github.com/safety-research/assistant-axis
Сама статья: https://arxiv.org/pdf/2601.10387
В подкасте «Сегодня на ретро» от Selectel обсудили многие AI-тренды и реальные кейсы. Один из ключевых моментов – почти любой AI-проект со временем начинает требовать больше вычислительных ресурсов.
При запуске и масштабировании важно иметь IT-инфраструктуру, которую можно быстро запустить и легко адаптировать.
В Selectel облачные и выделенные серверы с GPU можно настроить за несколько минут через удобную панель управления. А большой выбор GPU — от GTX и RTX до A100 и H200 — позволит закрыть самые разные AI-задачи.
Какие мощности нужны вашему проекту? Проверьте на практике: https://slc.tl/383hy
Реклама. АО "Селектел". erid:2W5zFJkVehE
OpenAI поглотили OpenClaw (🦞) и переманили к себе создателя проекта
Питер Штейнберг возглавит в OpenAI разработку следующего поколения агентов. Сэм Альтман назвал его «гением с множеством потрясающих идей» и сказал, что очень скоро эти идеи будут лежать в основе продуктов компании.
Что касается OpenClaw: проект не закрывается и остается опенсорсным. OpenAI обязываются поддерживать и развивать его. Стратегически для компании это имеет смысл, так что в этом в случае в обещания можно верить.
Кстати, сейчас OpenClaw – самый быстрорастущий репозиторий на GitHub в истории в смысле набора звезд. На пике у них было 34к звезд за два дня, и всего за 60 дней после запуска репа выросла с ~9к до почти 200к. Для сравнения, Kubernetes шел к 100K звезд около трех лет.
У Anthropic были все шансы купить OpenClaw первыми (особенно учитывая исходное название проекта ClawdBot), но они только закидали автора претензиями по поводу торгового знака. OpenAI в этот раз думали быстрее и успели отхватить самый лакомый кусочек, – с чем мы их и поздравляем.
steipete.me/posts/2026/openclaw
Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в разработке, а всего версий бенчмарка будет около 7
ARC-AGI-3 – выходит в паблик в марте, про него мы писали тут
ARC-AGI-4 – уже разрабатывается и будет, вероятно, также связан с играми и игровыми средами для агентов
ARC-AGI-5 – уже запланирован
ARC-AGI-6 и 7 – вероятно, финальные версии.
Шолле говорит, что главная идея ARC-AGI – предлагать задачи и проводить сравнительные тесты до тех пор, пока не останется того, что могут сделать люди, а ИИ – нет. Сам ученый считает, что такой момент (aka AGI) наступит примерно к 2030 году.
Знаменитый Джон Кармак предложил использовать оптоволокно вместо DRAM
Идея не лишена смысла. Современные single-mode оптоволоконные каналы могут передавать 256 Тбит/с. При такой скорости примерно 32 гигабайта данных едут внутри светового луча по волокну, то есть световой сигнал может временно хранить их и использоваться как кэш.
Это напоминает старую концепцию delay-line memory – память за счет задержки сигнала в среде (например, Тьюринг предлагал использовать для этого спирт).
С точки зрения энергии это почти бесплатно, потому что все, что происходит – это перемещение света по волокну.
Правда, есть нюанс: чтобы вместить 32 GB данных, нужны километры, а скорее даже десятки километров волокна. Плюс, в такой системе нет нормального произвольного доступа к данным, потому что они постоянно находятся в движении.
Но в целом, теоретически, жизнеспособно. Другими словами, чего только не придумаешь, когда цены на память взлетают до небес
Cursor выпустили новую модель для кодинга – Composer 1.5
Она основана на той же базовой модели, что и Composer 1. Отличие – в выкрученном на 20х объемом RL. Интересный факт: для этой модели компьют, потраченный на посттрейн даже превзошел компьют, потраченный на претрейн.
Модель с ризонингом, бюджет обучена контролировать сама. Также подчеркивают способность к само-суммаризации: модельку специально обучали качественно резюмировать диалог, когда контекстное окно достигло предела. После суммаризации модель продолжает работу с обновленным контекстом, и такой цикл может повориться много раз.
К сожалению, бенчмарков показывают ровным счетом ноль, только свой внутренний Cursor Bench. На нем действительно виден существенный прирост качества относительно Composer 1, но абсолютно непонятно, что это дает в сравнении с другими моделями.
Ради интереса можно попробовать, наверное. Стоит примерно как Claude 4.5 Sonnet.
Протестируйте OpenClaw в облаке Cloud․ru ❤️
Быстро. Бесплатно. Безопасно.
OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
➡️ самостоятельно запускать команды
➡️ работать с файлами
➡️ отправлять отчеты в мессенджеры
Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.
Программный продукт предоставляется на условиях «как есть» (as is). Подробности в Пользовательском соглашении Cloud․ru
⚡️ С минуты на минуту выходит Claude Opus 4.6
Модель уже засветилась в Perplexity и в Claude app. Ждем официальный пост с бенчмарками
Пошел слух, что кроме Sonnet 5 Anthropic также планируют выпустить модель для генерации изображений
Они остались единственными из золотой коллекции ИИ-компаний, у кого ее нет.
Claude Monet было бы замечательным названием (Anthropic, не благодарите ✌️)
Илья Суцкевер настоял на увольнении Альтмана в 2023 из-за зависти
Такую версию событий предлагает только что всплывшее в рамках дела «Маск против Альтмана» письмо Кевина Скотта – CTO Microsoft.
Оно написано через два дня после увольнения Сэма и адресовано Фрэнку Шоу – директору по коммуникациям Microsoft. Скрины прикрепляем.
TL;DR:
– Увольнение произошло из-за того, что Суцкевер все больше расходился с Сэмом во взглядах. И дело, по мнению Кевина, было не столько в глобальной безопасности, сколько в личных причинах.
– Во-первых, в OpenAI на почве разделения вычислительных ресурсов нарастал настоящий конфликт между отделами Research и Applied. Applied (ChatGPT, API) временно получил приоритет, потому что приносил прибыль, а Research (и Илья в частности) считал это игрой в одни ворота и винил Applied в нехватке GPU для исследований. Альтман пытался нарастить мощности, но Суцкевер представил ситуацию совету в ином свете.
– Во-вторых, Илья болезненно переживал успех Якуба Пахоцки. Альтман повысил его и поставил руководить основными направлениями исследований моделей. После этого прогресс резко ускорился: фактически, бывший подчиненный Суцкевера стал лидером и начал успешно решать задачи, с которыми Илья сам долго не мог справиться. Это, якобы, послужило еще одним триггером к обращению Ильи к совету и последующему увольнению Сэма.
В эфире ставшая постоянной рубрика: Илон Маск ссорится с <вставьте любое имя>
С Лекуном они давно друг друга не жалуют, взаимные подколы летят только так. На этот раз Лекун заявил, что ни одна из современных робо-лабораторий «понятия не имеет», как сделать по-настоящему полезных роботов.
Маск прокомментировал видео, сказав, что Ян просто «сам не знает, что делать, и думает, что никто не знает».
Ответ Лекуна себя ждать не заставил:
На самом деле, совсем наоборот.
Я знаю, что смогу это сделать, и знаю, как это сделать.
Но только не с теми методами, на которые сейчас все делают ставки.
Я (как известно) делаю ставку на JEPA, world models и планирование.
В какой-то момент ты поймешь, что я прав.
DeepMind выпустили сгенерированный мультик
Его представили на кинофестивале Sundance (и надеемся, скоро выпустят в общий доступ).
Короткометражка называется «Dear Upstairs Neighbors» и рассказывает про девушку, которая мучается бессонницей и галлюцинациями из-за шумных соседей.
Создавался мульт совместно с Конни Хи, режиссером из Pixar. Она вдохновилась своей личной историей и нарисовала наброски образов. Они получились достаточно сложными, так что в традиционной анимации это все требовало бы месяцев ручного труда.
В то же время для современных генераторов сюжет тоже оказался слишком нешаблонным. В итоге результат родился из синергии:
– Большая команда из DeepMind (45 инженеров!) специально затюнили Veo и Imagen под мульт и создали инструменты для локального редактирования кадров.
– Аниматоры создавали концепты -> модели их оживляли -> аниматоры допиливали детали.
В итоге фильм нарисовали всего за несколько недель. Будущее подкралось незаметно.
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/dear-upstairs-neighbors/
Hugging Face отказались от 500 миллионов долларов от Nvidia, чтобы сохранить независимость
Пару месяцев назад Nvidia предложила стартапу инвестиции в размере 500 миллионов долларов. Сумма предлагала оценку стартапа примерно в $7 млрд. Сейчас оценка – около 5 миллиардов, так что предложение с виду щедрое.
Но внезпно... HF отказались, потому что не хотели, чтобы один крупный инвестор получил слишком сильное влияние на стратегию и направление развития компании. Они заявили, что их цель – демократизировать ИИ, а не подчинить его интересам одного крупного игрока и максимизировать прибыль.
При этом, кстати, в 2025 HF была прибыльной за счет корпоративных клиентов, которые платят за расширенный функционал (таких примерно 3%, что, на самом деле, немало).
Робин Гуды нашего времени
Wunder Fund снова открыл соревнование для нейронщиков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.
Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
Интервьюер: …
Я, защищающий на алгоритмическом собесе свое решение, работающее за O(n³)
Исследование от Google: если усиливать в LLM внутренние маркеры диалога (типа "Oh" или "Wait"), то точность ответов может вырасти в 2 раза на сложных задачах
У корпорации вышла очень интересная полу-философская статья о том, что по сути представляет из себя ризонинг. Они пишут, что RL, на самом деле, учит модели думать не дольше, а коллективнее.
Вы точно замечали, что когда модель думает, она чаще всего как бы симулирует диалог между разными внутренними голосами. Она задает себе вопросы, может что-то покритиковать или выделить. И вот Google пишут, что в такой структуре внутреннего диалога и заключен феномен ризонинга.
Самое занятное – как они это доказывают:
– Авторы берут sparse autoencoder (что это такое и зачем оно нужно мы писали тут) и находят нейронный признак, который отвечает за удивление/осознание/смену точки зрения. Этот признак активируется в начале предложений в диалоговых контекстах, и на практике просто отвечает за употребление таких штук как «О!», «Подожди-ка», «Ага, значит...».
– Затем этот признак специально усиливают во время генерации и смотрят на метрики (модель – DeepSeek-R1-Llama-8B).
– Итог: на сложных задачах комбинаторной арифметики, на которых исходная модель дает 27.1% accuracy, модель с усилением диалогового маркера дает уже 54.8%, а с подавлением этого маркера – 23.8%.
Стат-значимость проверена: авторы специально сравнивали усиление этой фичи с усилением других признаков, и эффект очевиден. Плюс, параллельно с усилением этого маркера в модели также растет способность к когнитивному стратегическому мышлению.
Короче, LLM все еще изучены на 0.01%. Надо как-нибудь попробовать в промпте написать Используй побольше "ах", "ох", "точно" и "ага", и понаблюдать за результатом.
arxiv.org/pdf/2601.10825
Cursor существенно прокачали своего BugBot
Напоминаем, что это агент для автоматического code review. Появился он относительно недавно, но в самом начале пользы от него было не очень много.
Зато сейчас resolution rate вырос с 52% до 70%, а средняя доля пойманных за один запуск багов – с 0.4 to 0.7. Это значит, что доля разрешенных багов на PR выросло с 0.2 до 0.5, то есть в 2.5 раза. Уже выглядит целесообразно к использованию.
На этот скачок, правда, Cursor понадобилось около 40 итераций экспериментов и доработок: посмотрите, какая неоднородная лесенка на графике (числа в кружочках – номера версий, а по осям – доли пойманных и решенных багов).
Лучше всего сработало прогонять один и тот же PR через несколько разных представлений diff’а: обычный unified diff, diff с расширенным контекстом (код до-после), diff словами и тд. Запускается несколько независимых проверок, затем агент их склеивает.
https://cursor.com/blog/building-bugbot