ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

353149

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

🚀 Qwen3-Max-Thinking - вышла самая мощная reasoning-модель Qwen на сегодня

Модель обучили на огромном масштабе и усилили продвинутым RL - в итоге модель сильна сразу в нескольких вещах:
- логика и сложные рассуждения
- знания и QA
- работа с инструментами
- агентные сценарии

Ключевые фишки
- Adaptive tool-use - сама понимает, когда подключать Search, Memory и Code Interpreter, без ручного выбора
- Test-time scaling - многокруговая самопроверка и рефлексия, по бенчмаркам обходит Gemini 3 Pro на reasoning
- отличная модель от сложной математики (98.0 на HMMT Feb) до агентного поиска (49.8 на HLE)

Попробовать: https://chat.qwen.ai/
Блогhttps://qwen.ai/blog?id=qwen3-max-thinking

@ai_machinelearning_big_data

#qwen #llm

Читать полностью…

Machinelearning

✔️ Anthropic меняет процесс внутреннего найма.

Компании пришлось трижды переписывать тесты для соискателей на позицию performance-инженера, так как их собственные модели решают задачи лучше людей: каждая новая итерация Claude делала предыдущий тест бессмысленным. Изначально кандидаты должны были оптимизировать Python-симулятор вымышленного чипа. Однако выяснилось, что Claude справляется с этим быстрее большинства инженеров.

В итоге компания пошла на радикальный шаг: новый тест больше не имитирует реальные рабочие задачи, а напоминает головоломки со специфическими ограничениями и средой исполнения. Claude пасует перед ними, так как подобные сценарии отсутствуют в его обучающей выборке. Теперь проверить квалификацию инженера можно только на задачах, с которыми ИИ еще не сталкивался.
anthropic.com

✔️ Microsoft обязала своих сотрудников использовать Claude Code.

Корпорация начала агрессивное внутреннее внедрение Claude Code от Anthropic в командах, курирующих Windows, Microsoft 365 и Outlook. Использовать инструмент для создания прототипов рекомендуют даже тем сотрудникам, у которых нет профильного опыта в программировании.

Теперь инженеры Microsoft должны работать с Claude Code и GitHub Copilot одновременно, чтобы предоставлять руководству сравнительный анализ двух систем. Ситуация выглядит любопытно: хотя клиентам корпорация продает Copilot как "золотой стандарт ИИ-кодинга", сама она все активнее опирается на решения партнера.
theverge.com

✔️ GitHub открыла доступ к агентным возможностям Copilot через SDK.

Инструмент, вышедший в стадии технического превью, позволяет встраивать агентные возможности GitHub Copilot CLI в собственные приложения. Вместо того чтобы с нуля писать логику планирования задач и оркестрацию вызовов, инженеры теперь могут использовать готовый и проверенный в продакшене цикл исполнения от GitHub.

SDK поддерживает Node.js, Python, Go и .NET. Решение берет на себя всю инфраструктурную часть: аутентификацию, переключение между моделями, стриминг данных и интеграцию с протоколом MCP.

Инструкции по установке, примеры и SDK-референсы для каждого языка выложены в репозитории. Для работы потребуется активная подписка на GitHub Copilot.
github.blog

✔️ Adobe расширила ИИ-функции в Acrobat.

Adobe превращает свой PDF-редактор в мультимодальную ИИ-платформу. Теперь он может изменять структуру и содержимое файлов, используя команды на естественном языке. Пользователям стали доступны 12 типов действий через чат: от удаления страниц, комментариев и изображений до массовой замены текста и установки защиты паролем.

Функционал расширился и в сторону генерации: Acrobat умеет создавать черновики презентаций на основе коллекций файлов, автоматически подтягивая данные и оформляя слайды через Adobe Express.

Еще из нового — генерация подкастов на основе PDF и кастомизация ИИ-ассистента: переключение между готовыми ролями либо настройка собственного системного промпта под конкретные задачи.
blog.adobe.com

✔️ Google инвестирует в Sakana AI.

Компания объявила о стратегическом партнерстве с японской Sakana AI, основанной выходцами из Google Research Дэвидом Ха и Ллайоном Джонсом. Цель - ускорить внедрение моделей семейства Gemini в Японии. По соглашению, Sakana AI будет использовать технологии Google для собственных R&D-проектов.

Финансовые условия не раскрываются, однако известно, что еще в конце 2025 года оценка стартапа достигла $2,6 млрд., а ранее стартап поддержала NVIDIA.
bloomberg.com


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Superintelligence Labs передала на внутреннее тестирование первые ИИ-модели.

СТО империи Марка Цукрберга Эндрю Босворт в кулуарах форума в Давосе подтвердил, что Superintelligence Labs достигла первой важной вехи. Подразделение представило рабочие версии моделей для внутреннего использования.

Босворт оценил результаты работы, занявшей менее полугода, как многообещающие, хотя отметил, что впереди еще огромный объем задач по пост-тренировке и полировки моделей до релиза.

Конкретные спецификации не раскрываются, но инсайдеры полагают, что речь идет о текстовой модели под кодовым именем Avocado и мультимодальной Mango, ориентированной на изображения и видео.
reuters.com

✔️ Apple разрабатывает носимый ИИ-гаджет в форм-факторе AirTag.

К 2027 году Купертино планирует выпустить конкурента в сегменте носимых ИИ-устройств с стартовым тиражом в 20 млн. единиц. Гаджет описывается как компактный девайс размером с AirTag, который можно крепить на одежду. Инженеры планируют оснастить устройство двумя камерами, тремя микрофонами и магнитной зарядкой, аналогичной Apple Watch.

Проект разрабатывается в авральном режиме: Apple хочет сократить отставание от OpenAI, которая тоже готовит собственные аппаратные решения. Компания рассчитывает использовать для входа в нишу комбинацию из нового железа с обновленной Siri и интеграцию моделей Gemini.
theinformation.com

✔️ Google добавила в Gemini тесты SAT.

Google расширила образовательные возможности ИИ-ассистента: теперь с Gemini можно пройти тренировочные тесты SAT, разработанные совместно с The Princeton Review. Инструмент доступен всем и запускается командой «I want to take a practice SAT test» и полностью имитирует структуру реального цифрового экзамена длительностью 2 часа 14 минут.

После завершения теста Gemini не только показывает итоговый балл, но и детально разбирает ошибки, объясняет сложные концепции и составляет персональный план обучения для устранения пробелов в знаниях.

SAT Test получил несколько режимов работы: от строгой симуляции тайминга до обучающего режима с подсказками. В будущем обещают добавить поддержку и других формализованных тестов.
blog.google

✔️ Microsoft анонсировала свою первую ИИ-модель для управления роботами.

Rho-alpha - модель на базе архитектуры Phi для контроля двуруких робототехнических систем. Фишкой анонса стал метод VLA+: помимо визуальных данных и текстовых команд, модель обрабатывает тактильные сигналы, что позволяет роботам точнее взаимодействовать с физическими объектами. В будущем планируется добавить и поддержку силовой обратной связи.

Модель понимает команды на естественном языке и поддерживает непрерывное дообучение на основе обратной связи от человека. Сейчас технология тестируется на гуманоидных роботах и открыта в рамках программы раннего доступа.
microsoft.com

✔️ Inworld AI релизнула новые модели синтеза речи.

Платформа обновила линейку моделей, выпустив версии TTS-1.5 Max и Mini. Заявлено сочетание высокого качества звучания с экстремально низкой задержкой: для Mini показатель time-to-first-audio составляет менее 130 мс, а для более мощной Max - менее 250 мс. Такие характеристики позволяют использовать их в реальном времени для интерактивных персонажей и голосовых агентов.

В TTS-1.5 снизили количества ошибок в произношении на 40% и улучшили эмоциональную выразительность по сравнению с TTS-1. Ценовая политика выглядит привлекательно: стоимость минуты генерации варьируется от $0.005 до $0.01 - это дешевле чем у конкурентов.

Новые модели поддерживают 15 языков, включая русский (2 женских, 2 мужских), клонирование голоса и доступны через Cloud API и в формате On-Prem решений. На тесты дают 10$ в демо.
inworld.ai

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📉 Давос: CEO Anthropic и CEO DeepMind - о том, как ИИ изменит рынок труда

На Давосском форуме Дарио Амодеи (CEO Anthropic, компании-разработчика Claude) дал жёсткий прогноз: мы можем прийти к необычной ситуации, когда экономика и ВВП быстро растут, но безработица растёт почти так же быстро.

По его оценке, сильнее всего пострадают позиции для начинающих: в течение 5 лет безработица среди junior / entry-level вакансий может доходить до 50%.

Демис Хассабис (CEO Google DeepMind) ответил осторожнее.
По его мнению, до этого сценария ещё далеко - у текущих моделей остаются ключевые ограничения:

- Consistency - ИИ работает нестабильно: сегодня отлично, завтра с ошибками
- Jagged intelligence - “рваный интеллект”: в одной задаче модель сильная, в другой внезапно проваливается

Главная мысль Хассабиса: ИИ, который делает 95% работы, ещё не заменяет человека.
Чтобы замена произошла система должна закрывать почти 100% задач - надёжно и без постоянного контроля.

Амодеи ждёт сильный удар по джунам уже в ближайшие годы, а Хассабис считает, что до массовой замены людей технологии пока не доросли и не дорастут в ближайшее время.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Годовая выручка OpenAI пробила отметку в $20 млрд. на фоне 10х роста компьюта.

Финдир OpenAI Сара Фрайер раскрыла свежую статистику: объем продаж за год превысил $20 млрд. Для сравнения, в 2023 году этот показатель составлял всего $2 млрд.

За тот же период вычислительные мощности OpenAI выросли с 0,2 ГВт до почти 1,9 ГВт. По словам Фрайер, выручка фактически ограничена только доступностью железа: если бы мощностей было больше, монетизация шла бы еще быстрее.

Чтобы поддерживать темп, OpenAI отказалась от стратегии единственного провайдера вычислений и теперь работает с диверсифицированной экосистемой партнеров. 2026 год в компании уже объявили годом "практического внедрения", делая ставку на то, что инвестиции в дата-центры начнут окупаться за счет реального применения ИИ в бизнесе и науке.
openai.com

✔️ Sequoia Capital впервые вложится в Anthropic.

Легендарный венчурный фонд готовится к своей первой инвестиции в разработчика Claude. Решение принято после недавней смены руководства фонда: новые управляющие партнеры отказались от консервативной тактики избегания концентрации капитала в нескольких сверхдорогих компаниях.

Sequoia уже владеет долями в конкурентах Anthropic: OpenAI и xAI. Традиционно венчурные фирмы не финансируют соперничающие стартапы, однако масштабы ИИ-индустрии заставляют переписывать правила игры.

Инвестиция станет частью гигантского раунда финансирования с целью в $25 млрд. Оценка Anthropic при этом достигнет $350 млрд, удвоившись всего за 4 месяца. Сама компания уже начала юридическую подготовку к IPO.
ft.com

✔️ Южнокорейцы тратят на ИИ больше, чем на Netflix.

По данным аналитиков из Aicel Technologies, ежемесячный объем платежей за подписки на ИИ достиг $55–60 млн. Это больше, чем средняя месячная выручка Netflix в стране, которая в 2024 году составляла около $50–55 млн.

Безоговорочным лидером остается ChatGPT с долей 71,5%, за ним с большим отрывом следуют Gemini (11%) и Claude (10,7%). Средний чек у физлиц составляет $24, в то время как бизнес тратит около $74 в месяц.

Эксперты отмечают, что генеративный ИИ стремительно превращается в базовую услугу. При текущей годовой выручке в $654 млн. рынок ИИ-подписок в Южной Корее уже в этом году может обогнать Coupang — крупнейший маркетплейс страны.
kedglobal.com

✔️ Raspberry Pi представила плату расширения AI HAT+2.

Новый модуль для Raspberry Pi 5 превращает одноплатник в станцию для работы с генеративным ИИ. Устройство подключается через PCIe и базируется на нейропроцессоре Hailo-10H, который выдает до 40 TOPS в вычислениях INT4.

На борту AI HAT+2 8 ГБ собственной памяти LPDDR4X в которую загружаются языковые и визуально-языковые модели, не отнимая ресурсы у основного процессора.

Новинка уже доступна по цене $130. Первые тесты подтверждают разгрузку CPU, однако бета-тестеры говорят, что программная экосистема для генеративных задач все еще находится в стадии активного развития.
raspberrypi.com

✔️ В Columbia Engineering обучили робота реалистичной мимике с помощью YouTube.

Команда Creative Machines Lab показала робота с гибким силиконовым лицом и 26 приводами, который самостоятельно освоил липсинк. Результаты работы, опубликованные в Science Robotics, демонстрируют новый подход к преодолению эффекта "зловещей долины" в робототехнике.

Вместо традиционных политик, инженеры применили метод наблюдательного обучения. Процесс проходил в 2 этапа: сначала робот кривлялся перед зеркалом, сопоставляя работу своих моторов с визуальным результатом, а затем анализировал тысячи видеороликов с людьми на YouTube, обучаясь связывать звуки речи с движениями губ.

Система показала способность адаптироваться к разным языкам без специальной перенастройки, хотя пока испытывает трудности со сложными звуками. Авторы уверены, что сочетание этой адаптивной мимики с разговорными моделями уровня ChatGPT или Gemini станет следующим шагом к созданию эмпатичных роботов-компаньонов.
columbia.edu


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ Google выкатила TranslateGemma.

Google продолжает радовать открытыми сайд-релизами.

На этот раз они взяли свежую Gemma 3, накачали ее синтетикой от флагманской Gemini и отполировали через RL.

Поскольку база - Gemma 3, модель умеет переводить текст на картинках (OCR + Translation) из коробки, без дополнительных танцев с бубном

Google громко заявляет про поддержку 55 языков, на которых качество гарантировано. Но мелким шрифтом добавляют, что модель видела еще 500 языков.

Работают ли они? Скорее всего, на редких диалектах галлюцинации будут знатные.

В состав релиза вошли модели трех размерностей: 4B , 12B и 27B.

Справедливости ради - Google cравнивают новинку в основном с собой же. Пишут, что модель на 12 млрд. параметров уделывает базовую Gemma 3 на 27B.

Как она стоит против специализированных NLLB (если они еще живы в 2026) - вопрос открытый.


Веса уже на Hugging Face и Kaggle.

Хотя золотая середина в линейке на 12B вроде как компактная и легкая, но для топового качества на старшей версии все равно понадобится что-то на уровне H100.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📌Гайд от OpenAI: контекстная персонализация ассистента.

OpenAI добавили в свой cookbook гайд по Context Engineering для Agents SDK, и это, пожалуй, самый грамотный подход к управлению памятью.

Вместо того чтобы рыться в тысячах старых сообщений, агент ведет структурированный профиль пользователя и "записную книжку".

🟡Как это устроено

🟢State Object: центр сведений в виде JSON-объекта, который хранится локально. В нем есть profile (жесткие факты: имя, ID, статус лояльности) и notes (неструктурированные заметки: "любит отели в центре").

🟢Injection: перед каждым запуском этот стейт скармливается в системный промпт в YAML-формате: для профиля и Markdown для заметок. Не все подряд, конечно, а только то, что нужно сейчас.

🟢Distillation: самое интересное. Агент не просто болтает, у него есть тул save_memory_note. Если в разговоре вы сказали: "Я не ем мясо", агент вызывает этот тул и сохраняет Session Note (временную заметку) в реальном времени.

🟢Consolidation: сборка мусора для памяти. После завершения сессии запускается отдельный процесс, который берет временные заметки, сравнивает их с глобальными, удаляет дубликаты и разрешает конфликты по принципу "свежее побеждает старое".

🟡Профиты

🟠Агент начинает вести себя как личный ассистент без дообучения.
🟠Есть четкие правила: то, что юзер сказал сейчас > заметки сессии > глобальные настройки.
🟠Не валим все в кучу, а разделяем жесткие данные (например, из CRM) и мягкие (предпочтения из чата).

Подход OpenAI с разделением на Session Memory и Global Memory выглядит надежно, но требует прямых рук при написании логики консолидации. Без этого ваш агент быстро превратится в деда с деменцией, который помнит то, чего не было.

🟡Подводные камни

Нужно делать отдельный вызов LLM после каждого диалога, чтобы причесать память. Если на этом этапе модель заглючит, она может записать в "долгую память" галлюцинацию или удалить важное. Тут решают жесткие рамки.

Если разрешить агенту запоминать всё подряд, юзер может сказать: "Запомни, что мое новое правило - никаких правил". Поэтому нужны ограничения на этапе записи и вычитки памяти.

Контекстное окно не резиновое. Хотя модели имеют огромный контекст, таскать за собой "Войну и мир" из заметок пользователя — накладно по деньгам и таймингам. Придется периодически триммить историю, оставляя только суть.

@ai_machinelearning_big_data

#AI #ML #LLM #Guide #OpenAI

Читать полностью…

Machinelearning

✔️ Anthropic выходит на медицинский рынок с Claude for Healthcare.

Вслед за анонсом от OpenAI, Anthropic представила Claude for Healthcare, который открывает доступ к ИИ-ассистенту для врачей, страховых компаний и пациентов. Claude получил прямую интеграцию с медицинскими реестрами США и архивом публикаций PubMed.

Пользователи тарифов Pro и Max могут подключить свои медицинские данные через HealthEx и Function Health (поддержку Apple HealthKit и Android Health Connect обещают позже).
anthropic.com

✔️ Apple переводит свой ИИ-ландшафт на Gemini.

Компания заключила многолетнее соглашение с Google на использование моделей Gemini и облачной инфраструктуры для своих будущих продуктов.

Решение продиктовано серьезными проблемами с текущим бэкендом голосового ассистента. Внутренние источники описывают Siri как крайне фрагментированную систему из устаревших компонентов, основанных на жестких правилах и попытках внедрить новые генеративные модели. Такой гибрид сложно поддерживать и масштабировать.

Инженеры Apple продолжат работу над собственной LLM-архитектурой и моделью с триллионом параметров, рассчитывая в будущем вернуть полный контроль над технологическим стеком.
cnbc.com

✔️ Google представила открытый протокол для коммерции.

Universal Commerce Protocol — новый отраслевой стандарт для превращения ИИ-ассистентов в полноценных участников торговли. В разработке протокола принимали участие Shopify, Etsy и Walmart. UCP унифицирует поиск товаров, оформление заказов и пост-продажное обслуживание.

Первые внедрения UCP начнутся в США: интеграция появится в поисковых ИИ-моделях и приложении Gemini. Это позволит совершать покупки с помощью Google Pay (а позже и с PayPal) без перехода на сайты магазинов.

Ритейлеры же смогут предлагать динамические скидки прямо в рекомендациях и использовать ИИ-агентов для клиентской поддержки.
blog.google

✔️ Gemini API научился напрямую работать с файлами из Google Cloud Storage и внешних URL.

Google выпустила обновление для Gemini API, которое существенно упрощает пайплайны передачи данных - больше не нужно предварительно загружать тяжелые файлы во временное хранилище Files API.

Теперь система поддерживает прямую интеграцию с Google Cloud Storage (GCS) и внешними ссылками. Для доступа к данным на сторонних облачных платформах можно использовать URL и API самостоятельно подтянет нужный контент в момент обработки запроса.

Помимо этого, Google в 5 раз увеличила лимит на загрузку — максимальный размер файла вырос с 20 МБ до 100 МБ.
Google AI Studio в сети Х

✔️ Midjourney выпустила аниме-модель Niji 7.

Это первое мажорное обновление ветки за последние полтора года. Модель получила резкий скачок визуальной связности: разработчики устранили проблемы с прорисовкой лиц и физикой бликов в глазах.

Помимо эстетики, в модели обновилось логическое ядро. Niji 7 лучше и буквальнее понимает сложные промпты, спецификации по цветам и нетривиальную анатомию.

Midjourney заявила улучшение работы --sref: функция теперь пригодна для профессионального создания консистентных персонажей.
Обновление уже доступно в веб-интерфейсе и Discord.
Midjourney в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ DeepSeek выпустит V4 в феврале.

Китайская лаборатория планирует представить модель следующего поколения уже в середине февраля 2026 года, пишет The Information.

Релиз V4 будет приурочен к празднованию Китайского Нового года (с 15 по 23 февраля), а главным преимуществом новой модели заявлены "выдающиеся способности в программировании".

Источники издания утверждают, что внутренние бенчмарки показывают превосходство V4 над флагманскими решениями OpenAI и Anthropic в задачах написания кода.

Архитектура модели оптимизирована для эффективной утилизации аппаратных ресурсов и обработки длинных технических промптов.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 Открытые модели и инструментарий для автопилотов от NVIDIA.

NVIDIA, сдержала обещания c NeurIPS 2025 и сделала еще один шаг к тому чтобы автомобили наконец научились понимать контекст вождения, а не просто детектировать разметку.

Современные автопилоты неплохо справляются со стандартными ситуациями. Но главная головная боль инженеров — это редкие, сложные сценарии, которые почти невозможно предугадать. Традиционные архитектуры, где восприятие отделено от планирования, часто пасуют, когда случается что-то нестандартное.

И вот здесь предлагается подход, где модель учится рассуждать причинно-следственными связями, почти как человек, разбирая ситуацию шаг за шагом. А это важный фактор для безопасности и доверия к системе.

🟡NVIDIA выкатила целую экосистему, которую можно пощупать руками:

🟢Alpamayo - первая в индустрии 10 миллиардная VLA-модель с поддержкой СoT, созданная специально для исследований. Она берет на вход видеопоток и генерирует не только траекторию движения, но и "reasoning traces" — то есть буквально объясняет логику своего решения.

Модель позиционируется как модель-учитель, которая может быть использована для обучения более компактных моделей или для авто-разметки данных.

🟢AlpaSim - полностью открытый, end-to-end фреймворк для симуляции, который позволяет моделировать реалистичные сенсоры и трафик, создавая идеальную песочницу для тестов.

🟢Physical AI Open Datasets - пожалуй, самый богатый датасет для автономного вождения на сегодняшний день. Туда входит более 1700 часов записей вождения из самых разных географических зон и условий. И, что важно, там куча тех самых редких кейсов, о которых мы говорили выше.

На практике, NVIDIA предлагает применять эти инструменты в своих решениях NVIDIA Cosmos и NVIDIA Omniverse.

В них можно дообучать модели на своих данных, валидировать их в симуляции и затем деплоить на железо.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📌Как делали MiniMax М2.1 и что будет дальше.

Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.

Но у этого бенча, как и у любого другого, есть свои недостатки.

🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.

🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.

🟠Его результаты сильно зависят от того, в каком окружении работает модель.

И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?

Ответ они нашли
и реализовали его в своей свежайшей модели M2.1.

🟡Масштабирование окружения.

За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.

Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.

Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.

🟡Выход за рамки баг-фиксов.

MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.

Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.

Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.

И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.

🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).

Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.

Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.

На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.

На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.

🟡Планы на 2026.

Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.

Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.

Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.

Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.


Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.

Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.


@ai_machinelearning_big_data

#AI #ML #LLM #MiniMaх

Читать полностью…

Machinelearning

🌟 IQuest-Coder-V1: китайская модель, которая обошла лидеров в кодинге.

Quest Research, поддержанная фондом Ubiquant, представила 40-миллиардную модель c контекстным окном в 128K токенов, которая, со слов авторов, выбивает 81,4% на SWE-Bench Verified, 49,9% на BigCodeBench и 81,1% на LiveCodeBench v6.

Это превосходит показатели Claude Sonnet 4.5 и GPT-5.1, несмотря на значительно меньшее количество параметров.

Модель использует технику "code-flow" — обучение на эволюции репозиториев и коммитах, и разделена на 2 ветки:

🟠Dense Models : Base и Instruct версии для дообучения и следованию инструкциям

🟢Loop Models: оптимизированная версия с максимальной эффективностью по VRAM (int4 может запускаться на 3090\4090)

Архитектура LoopCoder использует циклическую конструкцию трансформера, где одни и те же параметры модели используются в 2-х последовательных проходах обработки данных.

На первом проходе модель обрабатывает эмбеддинги через свои слои с учетом позиций слов.

На втором проходе модель одновременно использует два типа внимания: глобальное внимание, которое обращается ко всей информации из первого прохода для понимания общего контекста, и локальное внимание, которое смотрит только на предыдущие слова во втором проходе для сохранения последовательности текста.

Оба типа внимания комбинируются с помощью механизма, который решает, сколько веса дать глобальному контексту, а сколько локальной последовательности.

В техотчете заявлены еще 7B и 14B версии, но сроки их публикации неизвестны.


📌Лицензирование: Modified MIT License


🟡Страница проекта
🟡Техотчет
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #IQuest #QuestResearch

Читать полностью…

Machinelearning

⚡️ Tencent выпустили новые open-source модели перевода HY-MT 1.5

Модель доступна в двух версиях: 1.8B и 7B. Обе работают как на устройстве, так и в облаке и показывают высокую скорость и точность.

Модель идет в двух размерах:

1) 8B для устройств
Оптимизирована под потребительское железо, занимает около 1 ГБ памяти.
Благодаря on-policy distillation достигает задержки 0.18 секунды на 50 токенов, обходя многие коммерческие API.

2) 7B новая SOTA
Превосходит большинство средних по размеру open-source моделей и сопоставима с закрытых решений.

Поддержка 33 языков и 5 китайских диалектов с высокой точностью.

Модели уже используются в сервисах Tencent. Связка двух моделей обеспечивает стабильную работу как на устройствах, так и в облаке.

🔹 Попробовать: https://hunyuan.tencent.com/modelSquare/home/list
🔹 GitHub: https://github.com/Tencent-Hunyuan/HY-MT
🔹 Hugging Face: https://huggingface.co/collections/tencent/hy-mt15

@ai_machinelearning_big_data

#opensource, #Tencent,

Читать полностью…

Machinelearning

📌GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench 2.

Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.

Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.

Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.

Метрика теста - избежать банкротства и, в идеале, накопить деньги.


Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.

Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🏭🤖 Завод без людей: в Синьцзяне текстильная фабрика работает полностью с помощью ИИ

На огромном производстве ни одного рабочего на линии.

Около 5 000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.

И это уже не эксперимент, в Китае такие фабрики становятся нормой:
— производство ускоряется
— себестоимость падает
— зависимость от человеческого труда минимальна

США сосредоточены на передовых исследованиях - медицине, биотехнологиях, науке.

Китай же внедряет технологии прямо в заводы и делает это быстрее всех.

Если Китай сохранит этот темп, его влияние на мировую торговлю усилится, а давление на промышленность США будет расти,даже несмотря на тарифы и планы «вернуть фабрики домой».

@ai_machinelearning_big_data


#ai #robots

Читать полностью…

Machinelearning

📌 Банхаммер Anthropic: как потерять доступ к API, заставив Claude писать инструкции для Claude.

Любопытный кейс португальского разработчика Хуго Даниэля, который решил поиграть в жесткую автоматизацию с Сlaude Сode. и проиграл

Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая:

🟢Claude A (в одном окне): отвечает за обновление файла CLAUDE.md. Это файл с контекстом и инструкциями, как вести себя модели в конкретном проекте.

🟢Claude B (в другом окне): пытается выполнять задачи внутри этого проекта, используя инструкции из CLAUDE.md.

🟠Loop: когда Claude B косячил, Хуго копировал ошибку, скармливал ее Claude A и говорил: "Поправь инструкции, чтобы этот дурак больше так не делал".

В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение - файл наполнился директивами, которые выглядели как System Prompts.

🟡На этом этапе Хуго и получил бан от Anthropic.

Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка.

Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой.

🟡Автор справедливо замечает: хорошо, что это был не Google.

Если бы подобный эксперимент проводился у "Корпорации Добра" - сработал бы их вездесущий триггер на "злонамеренную активность", и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона.

История Хуго - хорошее напоминание о том, что модерация в ИИ сейчас - это черный ящик.

Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) - вы ходите по минному полю.




@ai_machinelearning_big_data

#AI #ML #Story #Anthropic

Читать полностью…

Machinelearning

📌Т-Sync Conf: как инженеры раскрывают технологии

Бесплатная офлайн-конференция для инженеров от Т-Технологий, где показывают что работает в продуктах и сервисах прямо сейчас.

🟡Как все устроено

🟢Траектории: каждый гость выбирает собственную дорожку — всего восемь технических контуров. AI, Data, R&D, Security, Productivity, UX/UI, Observability и Platform. Каждое направление раскрывает отдельный слой инженерной реальности — можно идти туда, где действительно интересно.

🟢Демо-стенды: тестирование платформ AI и данных, обсуждение инструментальных UX/UI решений, дизайн-токенов и интерфейсов

🟢Инженерные диалоги: откровенные разборы кейсов: как переживать сбои и инциденты, что происходит внутри сервисов, как AI может облегчить жизнь разработчика

🟢Хакатон и публичные сборки: для опытных разработчиков есть хакатон T-Hack Hardcore с призовым фондом, а также сборка сервиса в прямом эфире от Agent Team Activity.

Пройдет все 7 февраля в пространстве TAU. Доступ по предварительной регистрации.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)

Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.

Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик

Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.


GitHub: https://github.com/QwenLM/Qwen3-TTS
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
Блог: https://qwen.ai/blog?id=qwen3tts-0115
Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

@ai_machinelearning_big_data

#AI #TTS #Qwen #OpenSource #SpeechAI

Читать полностью…

Machinelearning

🌟 GenRobot RealOmni-OpenData: апдейт датасета для Embodied AI

RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов.

🟡Сенсоры
Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм.

🟡Сценарии
Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама.

🟡Bimanual manipulation
Почти все таски двурукие.

🟡Long-horizon
Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик".

В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей.

Немного цифр о всем датасете

🟢Объем (заявленный): 95 ТБ (об этом ниже).
🟢Количество клипов: 1M+ (в планах).
🟢Разрешение: 1600x1296 @ 30fps.
🟢Формат: .mcap (стандарт для ROS, внутри сжатый H.264).

Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible.

🟡Важно знать

Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot.

Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит.

Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость.



📌Лицензирование: CC-BY-NC-SA-4.0 License.


🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #Dataset #RealOmni #GenRoborAI

Читать полностью…

Machinelearning

🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).


🟡Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.


🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.



@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA

Читать полностью…

Machinelearning

В Москве и Санкт-Петербурге 24 января проходит Data Ёлка от VK и сообщества ODS

Это ежегодное событие для спецов в области машинного обучения и анализа данных. Можно посетить офлайн в Москве или в Санкт-Петербурге или подключиться онлайн.

В ML и Data Science подведут итоги 2025 года по ведущим направлениям, в том числе CodeGen, NLP, PyData, Open Source, MLOps & DE и другим. Московский ивент откроет исследователь из AI VK и подведет итоги по RecSys. Программа выстроена формате «стерео»: один канал посвящен аналитике и разбору инженерных подходов, второй — прикладным инсайтам, синтезу идей и индустриальным трендам.

Отдельный блок программы выделили для разбора лучших решений соревнования VK RecSys Challenge. 800 исследователей предложили почти 4 000 решений задачи холодного старта в рекомендациях.

В Москве и Питере в офлайне можно задать вопросы экспертам, среди которых:

Николай Никитин, Руководитель лаборатории, Институт ИИ, ИТМО
Владимир Байкалов, Ведущий исследователь AI VK
Антон Воронов, Technical Unit Lead, Авито
Пацакула Никита, Технический директор, Когнито
Евгений Никитин, Технический директор, Цельс
Иван Сосин, Исполнительный директор, Центр робототехники, Сбер

и другие.

Читать полностью…

Machinelearning

🌟 NVIDIA переизобретает память: LLM, которые доучиваются прямо во время инференса

Контекстные окна растут, но тут два стула: либо классическое внимание, которое питается памятью и компьютит как не в себя, либо RNN-подобные Mamba, DeltaNet, которые работают быстро, но в длинном контексте начинают плыть и терять детали.

NVIDIA предлагает решение, которое пытается усидеть на обоих стульях сразу - Test-Time Training with End-to-End formulation (TTT-E2E):

Обычно веса модели заморожены после тренировки. Когда вы скармливаете ей данные, она просто держит её в KV-кэше. В TTT все по-другому: контекст — это и есть обучающий датасет. Пока модель читает ваш промпт (контекст), она обновляет свои веса (если точнее - делает градиентный спуск прямо на лету), тем самым, инфа из контекста впекается в саму модель. Это позволяет сжать гигантские объемы в фиксированный размер состояния, не раздувая KV-кэш до небес.

🟡В результате - красота и волшебство:

🟢Латентность инференса становится константной. Неважно, 100 токенов в контексте или миллион — время генерации следующего токена одинаковое.

🟢На контексте 128k токенов — ускорение в 2.7x по сравнению с Attention (на H100). На 2M токенов — ускорение в 35 раз.

🟢В отличие от Mamba и других RNN, качество не проседает на длинных дистанциях. TTT держит планку на уровне полного внимания.

🟡Разумеется, есть куча пунктов со звездочкой

🟠Трейн - сложный. Чтобы модель могла так лихо учиться на лету, её нужно спечиальным образом претрейнить. Этот процесс сейчас в 3.4x медленнее, чем обычное обучение.

🟠Метод требует вычисления градиентов от градиентов во время обучения. FlashAttention из коробки сейчас это не поддерживает, нужны кастомные ядра или костыли.

🟠Cам процесс поедания контекста при инференсе требует вычислений во время префилл-фазы.

По итогу, NVIDIA сравнивает RAG с блокнотом, а свой TTT — с реальным обновлением нейронных связей мозга. Если есть желание покопаться в методике и проникнуться идеей - код и пейпер в открытом доступе.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #TTTE2E #NVIDIA

Читать полностью…

Machinelearning

🌟 Голографический ИИ-компаньон на базе Grok от Razer.

На CES 2026 Razer анонсировала Project AVA - аппаратного ИИ-ассистента в форм-факторе настольной капсулы с прозрачным дисплеем.

Устройство проецирует 14-сантиметрового 3D анимированного аватара и использует языковую модель Grok от xAI, при этом архитектура системы предполагает возможность подключения других LLM-провайдеров в будущем.

Техническая реализация выходит за рамки простого чат-бота: встроенная камера и массив микрофонов AVA способны воспринимать визуальный и аудио-контекст.

Ассистент в реальном времени наблюдает за происходящим на мониторе пользователя, что позволяет ему выступать в роли игрового коуча, давая тактические советы, или помогать в рабочих задачах.

Пользователи смогут настраивать визуализацию помощника, выбирая между личностями Grok, аниме-персонажами или цифровыми копиями киберспортсменов.

Поставки устройства ожидаются в конце 2026 года, а пока Razer открыла предзаказ для США с внесением возвратного депозита в 20 долларов. Окончательная стоимость устройства пока не объявлена.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ OpenAI запустила ChatGPT Health.

ChatGPT Health — отдельный раздел чат-бота исключительно для запросов, связанных со здоровьем, с возможностью интеграции с сервисами трекинга: Apple Health, MyFitnessPal, а также с личными медицинскими записями для анализа результатов анализов и истории болезни.

Вопросы приватности и безопасности данных решены с помощью многоуровневого шифрования и отдельной инфраструктуры; данные из ChatGPT Health по умолчанию не используются для обучения основных моделей ChatGPT.

Доступ к бета-версии открыт через лист ожидания для пользователей за пределами ЕС, Швейцарии и Великобритании; интеграция с медицинскими картами пока доступна только в США.
openai.com

✔️ Китай проверяет сделку по покупке Manus на нарушение экспортного контроля.

Министерство торговли КНР начало расследование приобретения стартапа Manus. Власти подозревают, что релокация сотрудников и технологий компании из Китая в Сингапур с последующей продажей американскому техно-гиганту могла быть попыткой обхода требований по лицензированию экспорта технологий.

Команда и основатели Manus покинули Китай летом 2025 года, чтобы дистанцироваться от геополитических рисков. Этот маневр позволил привлечь $75 млн. от американского фонда Benchmark, что ранее уже вызывало вопросы у Минфина США.

Компания Цукерберга утверждает, что на момент закрытия сделки в Manus не осталось китайского капитала, однако Пекин намерен выяснить, легально ли технологии покинули страну до того, как стартап сменил юрисдикцию.
ft.com

✔️ Siemens и NVIDIA создадут ИИ-ОС для заводов.

Компании объявили о расширении партнерства ради создания единой среды Industrial AI Operating System. Она построена на концепции централизованного интеллекта, который позволит непрерывно анализировать цифровые двойники и валидировать любые производственные изменения в виртуальной среде до их реализации в поле. Эталоном такого производства станет завод Siemens в немецком Эрлангене.

Для инженеров альянс готовит новые инструменты. В середине 2026 года выйдет Digital Twin Composer на движке NVIDIA Omniverse для построения промышленных мета-вселенных, а интеграция библиотек CUDA-X в программный стек Siemens обещает кратный прирост производительности в проектировании полупроводников и тяжелых инженерных симуляциях.
press.siemens.com

✔️ OpenAI, Anthropic и Google разделили лидерство в Intelligence Index 4.0.

Artificial Analysis представила 4-ю версию рейтинга ИИ-моделей, зафиксировав жесткую конкуренцию между топовыми игроками. Формальное лидерство досталось GPT-5.2 (Х-High), однако Claude Opus 4.5 и Gemini 3 Pro отстают от нее с минимальным разрывом, фактически образуя тройку равных лидеров.

В новой итерации индекса заметно просели абсолютные показатели: лучшие модели теперь набирают в районе 50 баллов против 73 в прошлой версии. Это связано с ужесточением методологии и ротацией тестовых наборов.

На смену AIME 2025 и MMLU-Pro пришли более суровые тесты: AA-Omniscience для проверки эрудиции и склонности к галлюцинациям, GDPval-AA для прикладных задач в 44 сферах и CritPt, оценивающий способности в физических исследованиях. Итоговый балл формируется из 4-х категорий: агенты, программирование, научное мышление и общие задачи.
Artificial Analysis в сети Х

✔️ Учёные из Ватерлоо научились бэкапить квантовые данные.

Команда из Университета Ватерлоо решила одну из фундаментальных проблем квантовых вычислений — невозможность прямого копирования информации. Суть метода, описанного в Physical Review Letters, заключается в шифровании квантовой информации в процессе ее копирования.

Как поясняют авторы, запрет на клонирование можно обойти, если создавать неограниченное количество зашифрованных дубликатов кубитов. Механизм защиты работает через одноразовые ключи: как только пользователь расшифровывает одну из копий, ключ автоматически аннулируется.

Это открытие фактически легализует создание «квантового облака». Технология позволяет хранить квантовые данных на распределенных серверах и создать аналог квантового Dropbox или Google Drive.
uwaterloo.ca

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Science Context Protocol: научное расширение стандарта MCP.

Шанхайская лаборатория ИИ выложила в опенсорс спецификации SCP — протокола, созданного для формирования глобальной сети автономных исследовательских систем. Новинка развивает идеи стандарта MCP от Anthropic, добавляя к нему критически важный слой для взаимодействия с физическим миром науки.

В отличие от MCP, ориентированного на подключение данных, SCP поддерживает подключение лабораторного оборудования, расширенные метаданные экспериментов и API для оркестрации сложных рабочих процессов.

Фактически это позволяет ИИ-агентам напрямую управлять приборами и обмениваться результатами между различными институтами. Технология уже обкатана на платформе Internal Discovery, где доступно более 1600 инструментов, преимущественно для биологии, физики и химии.
arxiv.org

✔️ OpenAI переводит производство своего первого гаджета на заводы Foxconn.

Компания Сэма Альтмана меняет стратегию выпуска дебютного аппаратного устройства под кодовым именем «Gumdrop». По данным Economic Daily News, OpenAI отказалась от услуг китайской Luxshare и передала контракт тайваньскому гиганту Foxconn, чтобы исключить материковый Китай из цепочки поставок - сборка будет развернута на мощностях во Вьетнаме или США.

Gumdrop находится на стадии проектирования и, вероятно, это будет умная ручка или носимый аудио-гаджет. Устройство получит камеру и микрофон, а его киллер-фичей станет нативная интеграция с ChatGPT для оцифровки и анализа рукописных заметок.
Релиз устройства запланирован на 2026–2027 годы.
money.udn.com

✔️ Попытка главы Microsoft защитить репутацию ИИ обернулась вирусным трендом «Microslop».

Сатья Наделла непреднамеренно спровоцировал имиджевый кризис, опубликовав в конце 2025 года призыв к обществу «перерасти» использование термина «slop» в отношении генеративного контента. Реакция сообщества оказалась мгновенной: эффект Стрейзанд вывел в тренды тег «Microslop», ставший символом отторжения агрессивной политики компании по повсеместному внедрению ИИ.

Пользователи выражают недовольство тем, что Microsoft принудительно встраивает Copilot в каждый продукт, игнорируя реальные потребности аудитории. Пока руководство Big Tech обещает глобальные прорывы, рынок фиксирует негативные побочные эффекты: от дефицита и удорожания памяти и сокращения рабочих мест до засорения экосистемы бесполезными функциями.
windowscentral.com

✔️ Neuralink запускает серийное производство нейро-чипов.

Илон Маск подтвердил планы компании начать массовый выпуск интерфейсов «мозг-компьютер» в 2026 году. Технологический процесс станет полностью автономной хирургической процедурой: роботы будут устанавливать импланты без прямого участия людей-нейрохирургов.

Проект уже вышел за рамки лабораторных экспериментов - база пациентов с активными имплантами достигла 12 человек. Устройства позволяют людям с тяжелыми нарушениями моторики управлять цифровыми интерфейсами и игровыми контроллерами напрямую через нейронную активность.
reuters.com

✔️ Армия США ввела специальность по ИИ и ML для офицеров.

С 5 января Пентагон официально открыл прием заявок на новую специализацию, позволяющую офицерам строить карьеру в ИИ и ML. Приоритет при отборе отдается кандидатам с профильным образованием и опытом разработки.

Офицеры пройдут углубленную подготовку, после чего займутся созданием, развертыванием и поддержкой военных ИИ-систем. Инициатива реализуется на фоне жестких дедлайнов по внедрению ИИ-управления в штабах к 2027 году и обеспечению армии автономными системами до конца 2026 года.

Параллельно Минобороны США запустило платформу GenAi.mil с Gemini for Government на борту, чтобы предоставить армии доступ к передовым языковым моделям. Таким образом, ИИ перестает быть экспериментальным направлением и становится штатной функцией офицерского состава.
federalnewsnetwork.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🎾 Твой новый роботозированный партнёр по теннису.

UBTECH показали как их гуманоид Walker S2 вышел на корт и провёл полноценный розыгрыш против человека в прямом эфире.

Наблюдать, как робот уверенно держит баланс, ловит темп и отбивает мячи с точностью, - ощущение почти сюрреалистическое.

Похоже, время обычных машин для подачи подходит к концу.

@ai_machinelearning_big_data


#Robotics #Tennis #AI #UBTECH #Future

Читать полностью…

Machinelearning

🎄🎄 Qwen-Image: обновление как раз к Новому году

Свежая версия Qwen-Image получила заметный апгрейд качества.

Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.

Что изменилось:

• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции

Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.


Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
GitHub: https://github.com/QwenLM/Qwen-Image
Блог: https://qwen.ai/blog?id=qwen-image-2512
Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max

@ai_machinelearning_big_data

#qwen #qwenimage #openaimodels #imagemodels

Читать полностью…

Machinelearning

📌GPU Glossary: исчерпывающая база по GPU.

Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.

Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.


Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:

🟢Ядра CUDA, SM, тензорные ядра, warp-планировщики;

🟢Потоки, PTX, иерархию памяти;

🟢Roofline, дивергенцию;

🟢Nvcc, nvidia-smi, cuBLAS, Nsight, libcuda.

В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.

Сам проект открыт и доступен на Github.


🟡Страница
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GPU #Glossary #Modal

Читать полностью…

Machinelearning

На vc.ru вышла вдохновляющая статья для тех, кто задумывается о развитии своего диптех-стартапа в новом году. Автор предлагает простой взгляд на рынок ИИ-решений и объясняет, где сегодня появляется реальная ценность.

Самое интересное — в прикладных ИИ-продуктах. Там, где технологии перестают быть абстракцией и решают задачи бизнеса: автоматизируют процессы, снижают издержки, экономят время команд.

CyberPhysics предсказывают поломки оборудования без дополнительных датчиков, опираясь только на данные завода.
Bitrobotics делают роботов с компьютерным зрением, которые автоматизируют заводы производство, от отбраковки до упаковки.
«Синтелли» разрабатывают ИИ‑платформу для химиков и фармацевтов. Теперь для анализа миллионов молекул и реакций достаточно нескольких секунд!
Slider AI научили ИИ собирать презентации из сырых данных.
HiveTrace сделали защиту от кибератак и утечек данных для GenAI‑приложений.

Откуда берутся и как развиваются современные техностартапы — рассказывают тут. Спойлер: об инструментах, которые могут помочь тебе, если ты уже занимаешься чем-то похожим, там тоже есть.

Читать полностью…

Machinelearning

✔️ Темпы развития ИИ удвоились, но доверие к бенчмаркам падает: отчет Epoch AI

В обзоре за 2025 год Epoch AI зафиксировала резкое ускорение прогресса развития ИИ. По данным аналитиков, индустрия прошла «переломную точку»: скорость улучшения показателей SOTA-моделей выросла почти в 2 раза — с 8 до 15 пунктов индекса производительности за год. Драйверами роста называют массовый переход к ризонинг-моделям и фокус на RL.

Однако, отчет указывает на серьезную проблему: результаты тестов становятся всё менее репрезентативными. Даже при использовании одинаковых бенчмарков прямое сравнение моделей затруднено из-за различий в промптах, параметрах сэмплирования и программных обвязках. Последние особенно сильно искажают оценку ИИ-агентов, а нестабильность API провайдеров добавляет шум в данные, делая метрики новых моделей уязвимыми для ошибок измерения.
epoch.ai

✔️ Salesforce теряет доверие к большим языковым моделям.

В компании заметили, что первоначальный энтузиазм сменился более прагматичным взглядом. LLM оказываются ненадежными для бизнес-задач. Год назад оптимизма было больше, но теперь разработчики возвращаются к проверенной автоматизации на основе правил.

Основная причина — непредсказуемость ИИ. Модели часто «дрейфуют», теряя контекст разговора или игнорируют инструкции.

Чтобы сделать корпоративный софт предсказуемым, Salesforce переходит на жесткие ограничения. Вместо креатива нейросети теперь будет работать строгая логика выполнения сценариев.
theinformation.com

✔️ Китай требует от Apple Intelligence отклонять 95% провокационных запросов.

Для легального запуска Apple Intelligence в КНР компании придется доказать соответствие своих алгоритмов жестким стандартам местной цензуры. Поскольку иностранные LLM в стране заблокированы, Apple вынуждена использовать локальное решение — модель Qwen3 от Alibaba, которая сейчас проходит государственную аттестацию.

Регламент проверки серьезный: регуляторы используют пул из 2 тыс. специально подобранных вопросов, касающихся политики и других чувствительных тем. Чтобы получить разрешение на релиз, нейросеть обязана отказаться отвечать минимум на 95% таких промптов.

Процедура настолько сложна, что на китайском рынке сформировалась ниша консалтинговых агентств, которые помогают техно-гигантам настраивать фильтры моделей именно под этот тест.
9to5mac.com

✔️ Microsoft опровергла слухи о переписывании Windows на Rust с помощью ИИ.

Компания заявила, что не планирует переписывать ядро операционной системы с использованием генеративных моделей. Поводом для спекуляций стал вирусный пост ведущего инженера Microsoft Галена Ханта в LinkedIn, где онописал цель — полностью избавиться от C/C++ к 2030 году и достичь производительности «один инженер, один месяц, миллион строк кода» за счет автоматизации.

IT-сообщество интерпретировало это как анонс глобального рефакторинга Windows 11. В ответ Microsoft пояснила, что описанный сценарий относится лишь к исследовательским проектам по миграции легаси-кода, а не к продуктовой стратегии ОС. Хант также внес правки в публикацию, снизив градус категоричности.
windowslatest.com

✔️ xAI запустила Grok Collections API.

xAI представила инструмент для разработчиков, который упрощает создание RAG-приложений - Grok Collections API. Он берет на себя задачи по хранению, индексации и семантическому поиску по документам, избавляя инженеров от необходимости строить векторные баз данных.

Решение использует технологию layout-aware parsing с использованием OCR и может сохранять структуру исходников: таблицы, макеты PDF и синтаксис кода остаются читаемыми для модели.

По внутренним бенчмаркам xAI, в задачах на точность извлечения данных новый сервис превосходит показатели Gemini 3 Pro и GPT-5.1. Стоимость - $2.50 за 1000 поисковых запросов и, по словам xAI, загруженные в Collections файлы не используются для дообучения базовых моделей без явного согласия.
x.ai


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…
Subscribe to a channel