78473
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Агент Cursor решил одну из задач First Proof challenge лучше, чем люди
First Proof challenge – это набор из 10 математических задач, составленный 11 известными математиками (включая лауреата Филдсовской премии Мартина Хайрера).
Задачи там из областей алгебраической комбинаторики, спектральной теории графов, топологии, стохастического анализа и тд. Они имитируют реальную работу академиков лучших университетов мира.
Задачки были составлены всего лишь месяц назад и открыто не публикуются во избежании лика данных в трейн моделей.
И вот сегодня CEO Cursor заявил, что их агент (для кодинга, на секундочку) справился с одной из этих задач, и нашел при этом лучшее решение, чем люди.
Это подтверждают математики: подход агента действительно отличается от существующего и улучшает доказательство до новой константы.
Что интересно, тут использовалась ровно та же система, с помощью которой Cursor с нуля завайбкодили браузер (пост об этом вот тут). Она автономно работала над задачей четыре дня, не получая никаких подсказок.
Под капотом там, кстати, не один, а десятки агентов на основе разных моделей, которые динамически планируют действия и работают над подзадачами.
Более 2.5 миллионов человек заявили, что они отменили подписку на ChatGPT из-за последних событий
По крайней мере, такие данные зафиксировал сайт quitgpt.org/. Он был специально создан, чтобы бойкотировать стартап за сделку с Пентагоном.
Сколько из перечисленных 2.5 миллионов подписавших петицию действительно перешли на другой ИИ – неизвестно.
Так или иначе, 2.5 миллиона – это все еще только около 0.3% от еженедельных пользователей бота.
Проект по машинному обучению — всегда больше, чем просто модель
В реальных проектах важно все: сбор и подготовка данных, проектирование пайплайна, интеграция инструментов и технические решения по внедрению. Без понимания этих этапов трудно представить, какие компетенции ожидают от инженера машинного обучения.
На вебинаре «Машинное обучение на практике: соберите бота для расшифровки аудиосообщений» от karpovꓸcourses вы пройдете полный путь построения проекта на конкретном кейсе. Эксперты с индустриальным опытом в ЯндексꓸЕда и из ИТМО покажут, какие навыки действительно требуются инженеру машинного обучения в работе.
Присоединяйтесь к вебинару по ссылке: https://clc.to/erid_2W5zFGW1avm
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFGW1avm
США использовали Claude в недавних боевых операциях в Иране – даже после запрета Трампа
WSJ сообщает, что во время недавних ударов по Ирану Центральное командование США использовало Claude для: разведывательных оценок, идентификации целей и моделирования боевых сценариев.
Формально это, конечно, не прямое нарушение приказа Трампа, потому что у них есть еще 6 месяцев, чтобы отказаться от Claude. И тем не менее, тайминг интересный:
– В пятницу Anthropic отказываются принимать условия Пентагона
– В тот же день Трамп агрессивно призывает все агентства прекратить использовать Claude и называет Anthropic леваками
– Буквально через несколько часов Claude используют для атаки Ирана и, возможно, даже убийства верховного лидера страны
В странное время живем
Доброе утро от создателя YouTube
"Надеюсь все наслаждаются последним годом работы, имеющей смысл"
Создатель Twitter Джек Дорси уволил половину своей компании Block из-за ИИ
До сегодняшнего дня штат Block (бывшая Square) насчитывал чуть более 10к сотрудников, пока Дорси не решил одним днем уволить 4 тысячи из них.
Он заявил, что руководство приняло такое решение не из-за проблем. Наоборот, бизнес силен, валовая прибыль продолжает расти и так далее. Просто "что-то изменилось".
Мы уже видим, что интеллектуальные инструменты, которые мы создаем и используем, в сочетании с небольшими командами позволяют создать новый способ работы, который коренным образом меняет то, что значит строить и управлять компанией. И это быстро ускоряется.
Когда экосистема вырастает до десятков продуктов, разрозненные ML-решения начинают тормозить развитие.
В VK объединили рекомендации, поиск и рекламу в единую Discovery-платформу. Теперь модели, данные и пайплайны работают по единым стандартам.
В основе потоковой обработки — Stream Flow, который построен работает на бигдата-платформе YTsaurus и выдерживает до 1 млн событий в секунду. Это позволяет синхронизировать real-time сигналы между продуктами и использовать их в обучении и ранкинге без отдельной инфраструктуры в каждой команде.
Результат — ускорение экспериментов в 5 раз и заметный рост продуктовых метрик в VK Клипы, VK Музыке и VK Видео.
Детали разработки и лучшие практики команда раскрыла в этой статье, советуем.
У Anthropic проблемы с Пентагоном
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом о оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
А мы китайский опенсорс все равно будем любить...
В Microsoft придумали технологию хранения данных в стекле
Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.
Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.
Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.
В чем фишка такого хранения?
Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.
Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.
В-третьих, энергоэффективность: хранение, считай, получается бесплатным.
В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
Большой обзор того, как сегодня обучают фронтирные LLMы
djdumpling.github.io/2026/01/31/frontier_training.html
Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.
Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.
Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы
... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом
Если вы в теме – это мастрид.
* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
OpenAI завершила первые коммитменты по новому мега-раунду финансирования
Ожидается, что в общей сложности компания получит 100 миллиардов долларов и по итогам раунда будет оцениваться примерно в $830 млрд.
Эта сделка станет крупнейшей в истории частного финансирования. При этом, напоминаем: OpenAI все еще зарабатывает ровным счетом 0 долларов в год и уходит в огромный убыток. Доходы превысят расходы компании только к 2029, и то – может быть.
Среди главных инвесторов – SoftBank, Nvidia, Amazon и Microsoft. Обратите внимание, что деньги (как это принято в ИИ-пузыре) в основном вернутся этим же компаниям, потому что OpenAI собирается закупать мощности именно у них.
На t-sync инженеры обсудили как сделать данные управляемыми по модели SRE. В Т-Технологиях называли это DRE - Data Relibility Engineering.
В рамках инженерного контура Data T-Технологии показали как удалось внутри крупного бизнеса с террабайтами данных сделать данные SRE-продуктом с прозрачной ответственностью и измеримостью.
Когда речь идет о данных обычно акцентируют внимание на lakehouse, AI и ускорении пайплайнов. В T Data Platform инженеры формализовали критичность данных (BC+, BC и т.д.), задали SLO, допустимый простой и время реакции. Через Data Contracts c более 9000 контрактов и DQ Tools, которые реализуют свыше 34 000 проверок, считается кумулятивная критичность по data-графу, есть контракт с бизнесом на качество и актуальность. Инцидент теперь — не просто "упала таблица", а нарушение бизнес-ожидания, с возможностью эскалации до уровня data-продукта. Цена падения — не просто ошибка в DAG. Это потеря доверия, срыв SLA бизнеса, финансовые и репутационные риски. DRE позволяет считать и минимизировать эту цену.
Data Incident Management обеспечивает оповещения, прозрачность и аналитику по 985 дата-процессам от 38 бизнес-линий внутри Т-Технологий.
T Data Platform за 18 лет эволюционировала от ETL в полноценный продукт: Sources, Storage (LakeHouse на Spark/Trino+S3), Governance с observability. Такой подход обеспечивает не просто безопасность самих данных, но и делает их частью Подробный разбор как устроена T Data Platform
https://habr.com/ru/companies/tbank/articles/926886/?code=2e8cb3c61683405ecc071d7adb2c6140&state=G0qsjTy2aT1lnOLGM82TtXkO&hl=ru
Минутка впечатляющих цифр: Яндекс повысил эффективность обучения LLM почти на 5 млрд рублей в год
Это примерно 400 миллионов в месяц. Про часть оптимизации компания уже рассказывала в техрепорте, а сейчас раскрыла цифры. Итак, за счет чего удалось повысить эффективность:
1. Собственная разработка Яндекса – библиотека YCCL (Yet Another Collective Communication Library). С ее помощью удалось в 2 раза ускорить обмен данными между графическими процессорами и сократить объем передаваемой информации. В мире подобные системы есть только у Meta, AMD и пары китайских IT‑гигантов.
2. Переход на FP8 и увеличение размера батча. Применение FP8 ускорило обучение моделей на 30% и сократило коммуникации в 2 раза. Батч увеличили до 16–32 млн токенов, что позволило обучать модели без простоев GPU, и благодаря исследованиям это даже не замедлило обучение.
3. А также оптимизация кода, аппаратной инфраструктуры и усовершенствование архитектур.
Claude Code теперь сможет генерировать полноценные дизайны в Figma
Обратная интеграция (дизайн в Figma -> код) уже давно реализована в Figma MCP, а вот эта штука, хоть и выглядит, возможно, странной, по сути качественно завершает полный комплект.
Если раньше разработка, даже с агентами, была +- линейной (идея -> дизайн -> только потом код), то теперь открывается новая возможность: продукт можно начинать делать прямо в IDE.
Задаешь агенту промпт, тот пишет код, потом этот код (благодаря как раз новой фиче Figma MCP) можно напрямую перевести в удобные изменяемые слои Figma, там оценить полную картину и что-то подправить, а затем зеркально вернуть правки обратно в код.
Помимо ускорения и всего прочего это, по сути, (1) буквально Claude Code для дизайнеров; (2) новый, более детальный и грамотный, подход к промптингу кодинг-агентов, который легче контролировать и применять к крупным продуктам.
Кайф
Т-Банк инвестирует в школьное IT-образование через поддержку учителей
Бигтех открыл прием заявок на четвертый сезон Всероссийского грантового конкурса «Вклад в поколение» для преподавателей математики, информатики и физики. Цель программы - оказать учителям финансовую и методическую поддержку.
Победившим в конкурсе педагогам откроют доступ к курсам образовательной платформы “Т-Образование”, закрытому сообществу и выдадут гранты по 200 тысяч рублей на любые цели. Выплачивать будут по 25 тысяч в месяц в течение учебного года. За все годы Т-Банк выделил на поддержку учителей более 120 млн рублей, гранты уже получили 380 преподавателей из 66 регионов.
Стэнфорд и PHD Biosciences создали биотехническую команду из 37 тысяч агентов, и они указали на потенциальный метод лечения рака
Авторы представили Virtual Biotech (www.biorxiv.org/content/10.64898/2026.02.23.707551v1) – мультиагентную систему, целью которой было научиться примерно предсказывать и объяснять, почему одни препараты проходят испытания и доходят до рынка, а другие нет.
Если бы мы научились делать такие предсказания даже с неидеальной точностью, это ускорило бы разработку лекарств в разы.
Так вот: Virtual Biotech скормили порядка 56 тысяч клинических испытаний разных фаз (всего таких фаз 4). Поверх этих данных агенты выдвигали гипотезы, обсуждали их друг с другом, проводили расчеты и, в общем, пытались извлечь какую-то скруктуру и инсайты.
Что в итоге:
1. Агенты предложили новую биологическую метрику – cell-type specificity, насколько узко экспрессирован ген в определенном клеточном типе. Показано, что она статистически значимо связана с вероятностью клинического успеха препарата, то есть это, по сути, новая априорная метрика для оценки эффективности препаратов.
2. Тут же в качестве кейса система указала на иммунный регуляторный белок, который часто сильно экспрессируется в опухолевых клетках и по предложенной метрике выглядит как перспективная мишень. Агенты даже предложили стратегию разработки соответствующего ADC-препарата на уровне аналитического дизайна.
Это довольно важные результаты, которые могли бы, теоретически, помочь компаниям сэкономить миллионы и годы на испытаниях, если бы были поставлены на конвейер. Короче, будущее близко.
Еще раз ссылка на статью
Ну все, Anthropic обрел главного фаната в лице Кэти Перри, теперь они обречены на успех
P.S. На самом деле конфликт между Пентагоном и Anthropic действительно неплохо подогрел интерес и лояльность к Claude.
Чат-бот вышел на 1‑е место в App Store по США, в то время как соцсети заполнены вот такими скринами отмены подписки ChatGPT и новых платежей Anthropic. Как говорится, плохой рекламы не бывает.
Бан Anthropic и триумф OpenAI: история с Пентагоном с каждым днем становится все безумнее и безумнее
Итак, Anthropic отказались безусловно принимать условия Министерства Обороны и заявили, что те не смогут использовать Claude для автономного оружия и массовой слежки.
В ответ Пентагон, как и обещали, расторгли со стартапом контракт на 200 миллиардов и назначили им статус supply chain risk.
Трамп назвал Anthropic радикальными леваками и woke-организацией, которая пытается диктовать условия армии, и призвал все федеральные агентства немедленно прекратить использовать их технологии.
В течение 6 месяцев от Claude обязаны отказаться все гос.организации. С этого момента Anthropic официально изгои.
Но это не самое интересное. Самое интересное, что одновременно с этим OpenAI заключили с Министерством Обороны новое соглашение: они развернут свои модели в секретной сети Пентагона – защищенной облачной инфраструктуре для задач национальной безопасности.
Для этого даже сформируют FDE – Forward Deployed Engineer, специализированную команду от OpenAI, которая будет мониторить и разворачивать ИИ прямо на месте.
Абсурд в том, что заключен этот контракт на ровно тех же условиях, которые выдвигал Anthropic. OpenAI тоже настояли на запрете массовой слежки и обязательном участии оператора в решениях о применении силы, включая автономные системы.
Вот только с Альтманом почему-то подписали сделку, а Амодеи за то же самое выкинули на помойку.
Официально: OpenAI завершила крупнейший в истории раунд частного финансирования
Они привлекли $110 млрд при предварительной оценке компании в $730 млрд (post-money будет примерно $840 млрд). Часть средств, конечно, придут не в виде кэша, а в форме услуг, как это принято в ИИ-пузыре 💀
SoftBank и NVIDIA вложили по $30 млрд каждая, а Amazon вкинул $50 млрд + стратегическое партнерство. Причем с Amazon ситуация следующая: сразу будет доступно только $15 млрд, а оставшиеся $35 млрд разблокируются только по определенным условиям (например, когда OpenAI начнут использовать более N чипов Trainium).
С Nvidia тоже интересно. Помните, как Хуанг двусмысленно высказывался о сентябрьском соглашении с OpenAI на 100 миллиардов? Мы писали об этом вот тут. Так вот текущие инвестиции, видимо, являют собой замену того договора. Получается, по итогу Nvidia инвестировали в три раза меньше, чем планировали, так что их вложение вовсе не означает, что между ними и OpenAI все гладко.
SoftBank тут самые ярые поклонники OpenAI. Чтобы наскресьти на инвестиции, они даже не пожалели продать акций Nvidia на $5,8 млрд.
Вышла Nano Banana 2!
Что интересного, помимо еще лучшего качества генераций, фотореалистичности и всего такого:
1. Сохранение персонажей. Теперь в рамках сессии можно сохранять несколько персонажей и объектов, и переиспользовать их так, чтобы детали внешности оставались неизменными.
2. Модель может в реальном времени ходить в Интернет и уточнять детали, если ей это необходимо. Это можно использовать, например, для генерации графиков.
3. Текст теперь вообще (почти) без багов, можно даже его локализовать и переводить, и это работает.
На видео – интересная демка, которую Google сделали в честь запуска. Это небольшой интерфейс "Window Seat". Вбиваете нужное место в мире и опции, и модель: (1) идет в поиск, чтобы чекнуть погоду на местности и соответствующие референсы; (2) рисует картинку из окна, которая точно соответствует времени суток, погоде и месту. Круто же?
Еще примеры генераций и все остальное -> blog.google/innovation-and-ai/technology/ai/nano-banana-2/
Вот ради таких мемов мы и терпим повышение цен на оперативку
(Смотреть до конца)
О, в Claude Code добавили удаленный котроль
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность 💀
В чем, собственно, проблема SWE-bench Verified:
1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI 🙂
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Сегодня ИИ становится частью разработки. Компании ждут не экспериментов, а рабочих решений, которые можно встроить в продукт и масштабировать.
На программе «ИИ-разработчик» от МТУСИ и Нетологии учат создавать такие решения. За 6 месяцев вы пройдёте полный цикл ИИ-разработки: от работы с API и векторными базами данных до продакшена, агентов и MLOps.
В программе много практики. Вы разработаете ИИ-помощников, чат-ботов с контекстом, RAG-системы и агентные решения. В портфолио будет 5 проектов, которые покажет реальный уровень навыков.
Обучение проходит онлайн, в формате вебинаров и практических заданий с проверкой. По итогам вы получите два диплома о профессиональной переподготовке — от МТУСИ и Нетологии.
Промокод AIDEVNETO дает скидку 10 000 на курс.
Подробная программа и условия обучения – https://netolo.gy
Реклама. ООО "Нетология" ОГРН 1207700135884 Erid: 2VSb5xU7mpm
Google представили Lyria 3 для генерации музыки
Самое интересное в модельке, – пожалуй, то, что она мультимодальная. Трек можно создать не только по промпту, но и из фото или видео.
То есть вы можете просто молча (или вместе с текстом) загрузить изображение или видео, и сгенерируется музыка, подходящая по атмосфере и смыслу.
Попробовать уже можно в Gemini app и на десктоп, скоро раскатят на всех. Длина треков – до 30 секунд.
Короче, новой волне ИИ-слопа – быть. Хотя, Google пишут, что каждая композиция генерируется с невидимым водяным знаком. Может это хоть немного спасет стриминги от «музыкантов».
Unity встраивает генерацию игр прямо в движок
Компания на созвоне с инвесторами подтвердила, что готовит обновление Unity AI, где можно будет описать игру текстом и получить собранный казуальный прототип внутри Unity. Бету обещают показать на GDC в марте 2026.
Здесь важна не сама идея (игры по промпту уже пробовали делать десятки стартапов), а то, что Unity делает ставку на генерацию проекта как структуры: сцены, базовая логика, UI, компоненты, связки между ними. То есть модель работает не в вакууме, а внутри реального пайплайна движка.
Пока упоминаются только казуальные форматы. Но если Unity действительно научит модель собирать проект целиком, то прототипирование станет очень быстрой задачей, а дальше начинается обычная разработка: доводка, баланс, визуал, контент.
https://www.gamedeveloper.com/programming/unity-says-its-ai-tech-will-soon-be-able-to-prompt-full-casual-games-into-existence-
Вышел Claude Sonnet 4.6! Главное:
– На 40% дешевле Opus и доступна для всех планов (включая бесплатный) в Claude Code, Cowork и тд
– В бета версии доступен контекст до 1М токенов!
– Модель очень существенно обновили в кодинге, ризонинге, computer use и, внезапно, финансах
– По бенчмаркам вплотную приближается к Opus 4.6 и во многих тестах превосходит GPT-5.2 и Gemini 3 Pro
– Computer use действительно подскочил, и заявляется, что с основным потоком задач, включая сложные таблицы и многошаговые формы, агент справляется на уровне человека
– Еще хочется отметить очень неплохие цифры на Vending Bench: моделька спланировала стратегию и заработала 5639$. Для сравнения, Opus 4.6 выбил только 4к$, но организаторы бенчмарка пишут, что Sonnet все еще придерживается довольно жестких стратегий (см наш пост).
claude.com/blog/improved-web-search-with-dynamic-filtering
Meta* не успели купить OpenClaw, поэтому решили его скопировать 😐
В Manus (которых, напоминаем, купил Цукерберг) сегодня появились так называемые Manus Agents в чатах.
По сути – полная копия OpenClaw: интеграции с платформами типа Gmail и Notion, доступ через мессенджеры, фоновые задачи и прочее.
Отличие только в доступе. Может, Manus Agents кому-то понравится даже больше, потому что не надо возиться с селф-хостингом, все доступно быстро и из коробки (но за денежку и без особого пространства для кастомизации).
manus.im/blog/manus-agents-telegram