17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🚀 Новый датасет для исследований в области речи и NLP!
OleSpeech-IV-2025-EN-AR-100 (100 часов)
🎤 Реальные, непоставленные диалоги на английском
🗂️ Человеческие транскрипты с разметкой спикеров
🔎 Отметки времени и пересечения реплик
📂 Сырые, несжатые аудиофайлы
Идеален для задач ASR, диалоговых систем и анализа речи.
https://huggingface.co/datasets/olewave/OleSpeech-IV-2025-EN-AR-100
✔️ OpenAI выпустила Codex-CLI 0.36 с новым GPT-5-Codex
Теперь система динамически выбирает время «размышлений»: на простые запросы отвечает почти мгновенно, а на сложных проектах может работать часами — вплоть до 7 часов подряд, выполняя рефакторинг, исправляя ошибки и доводя решение до финала.
Одним из главных нововведений стала функция codex resume, позволяющая возобновлять старые сессии. Также обновили интерфейс: появилось анимированное онбординг-руководство, улучшены отображение статусов и обработка прерываний. Важным изменением стала и новая система авторизации с более надёжной работой API-ключей и кастомных провайдеров.
По производительности GPT-5-Codex показывает заметный скачок. На бенчмарке SWE-bench модель набирает 74,5%, обгоняя GPT-5 high. На внутренних тестах по рефакторингу результат вырос с 34% до 51%, что говорит о серьёзном улучшении качества работы с большими кодовыми базами.
OpenAi
✔️ Релиз TimesFM 2.5 от Google
Google Research представила TimesFM 2.5 — обновлённую версию Time Series Foundation Model для прогнозирования временных рядов.
В версии 2.5 разработчики улучшили точность по сравнению с 2.0 и значительно расширили максимальную длину контекста, что позволяет обрабатывать более сложные и длинные временные зависимости.
Особое достижение — первое место в рейтинге GiFT-Eval: TimesFM 2.5 заняла лидирующую позицию сразу по всем метрикам среди zero-shot foundation-моделей, подтвердив статус одной из самых точных систем для анализа временных рядов.
Github
✔️ OpenAI и Anthropic: инструменты используются по-разному и приносят разные результаты
Согласно новому анализу от TipRanks, компании OpenAI и Anthropic показали, что их ИИ-инструменты применяются в существенно разных контекстах — и дают разные эффекты.
OpenAI в основном используется для создания контента, разработки кода и поддержки творческих задач, где гибкость и масштабируемость — ключевые аргументы. Его модели помогают пользователям генерировать текст, автоматизировать рабочие процессы и решать задачи, требующие воображения и нестандартного подхода.
Anthropic, напротив, чаще применяют в областях, где особенно важны точность, контроль бессознательных смещений и высокая надёжность — например, в юридических, медицинских или регулируемых средах. В таких сценариях делают упор на безопасность, на минимизацию ошибок и на возможность аудита и объяснений того, как пришёл к решению ИИ.
Отчёт подчёркивает: разные компании и пользователи выбирают OpenAI или Anthropic не просто на основе производительности, но и в зависимости от ценностей — что важнее: скорость и творческий потенциал или строгие гарантии и прозрачность.
Эксперты TipRanks полагают, что оба подхода — сильны в своих нишах. Поскольку спрос на ИИ-решения растёт, смешанные и гибридные модели применений, вероятно, станут всё более популярными: когда часть задач решается с помощью гибкого и креативного ИИ, а часть — с помощью инструментов повышенной эмпатии и осторожности.
Отчет
✔️ Reve выпустили свой нейрофотошоп
Reve представили AI-редактор изображений, который уже окрестили «текстовым фотошопом». В отличие от конкурентов, здесь почти нет цензуры, а ограничения на генерацию трудно заметить.
Функция Image creator & remixer позволяет создавать и перерабатывать изображения на основе текстовых подсказок. Интерактивный drag-and-drop редактор даёт возможность перемещать, масштабировать и изменять объекты прямо мышкой — так, как в привычных графических редакторах. Вместо стандартного поля для ввода появился чат-ассистент, превращающий взаимодействие в диалог, что облегчает настройку и доработку картинок.
Reve
✔️ Alphabet впервые достигла рыночной капитализации в $3 трлн
Компании Alphabet, материнской структуры Google, впервые удалось преодолеть отметку в $3 трлн стоимости на бирже. Акции выросли на 4 % на фоне судебного решения по антимонопольному делу, по которому не потребовалось разделение бизнеса (Chrome и Android). Сильный рост показали облачная служба и заинтересованность инвесторов в AI-продуктах, особенно модели Gemini.
Новость
@ai_machinelearning_big_data
#news #ai #ml
🤖 Прорыв в разработке наноботов
Учёные из Penn State сделали важный шаг к созданию настоящих наноботов.
🔬 С помощью нового микро-флюидного устройства они создали крошечные частицы, которые могут обмениваться сигналами и действовать вместе - как муравьи, оставляющие следы для других.
- Одна группа частиц двигалась по химическому градиенту и оставляла «след».
- Другая группа улавливала этот след и шла за ним.
👉 Это выглядит просто, но именно так закладывается основа программируемых роёв наноботов.
💡 Возможные применения:
- наночастицы находят опухоль и зовут другие с лекарством,
- мини-системы доставляют груз в нужную клетку,
- наноботы очищают организм от токсинов или восстанавливают повреждённые ткани.
Раньше учёные могли наблюдать за таким процессом всего несколько секунд. Теперь, с новым инструментом Penn State, поведение можно изучать минутами, что позволяет проводить более сложные эксперименты.
🌱 Вдохновение пришло из природы - у пчёл и муравьёв есть распределение ролей и совместная работа. Если частицы смогут делать то же самое, это приблизит нас к самоорганизующимся автономным наносистемам, которые могут изменить медицину и материалы.
Это пока ранняя стадия, но именно такие шаги строят фундамент для будущих роёв наноботов.
https://www.psu.edu/news/eberly-college-science/story/can-nanobots-play-follow-leader
🧩 Высокопроизводительный инструмент для дедупликации текста
Этот репозиторий предлагает оптимизированное решение для удаления дубликатов в больших текстовых наборах. Он сочетает в себе точную дедупликацию с помощью Content-Defined Chunking и обнаружение почти идентичных документов с использованием SimHash и Faiss. Сердце проекта написано на C++ и использует параллельные вычисления для максимальной производительности.
🚀 Основные моменты:
- Многоступенчатая дедупликация: точная и почти идентичная.
- Высокопроизводительный C++ код с параллельной обработкой.
- Интеграция с Python через чистый API.
- Эффективен для очистки данных перед обучением моделей.
📌 GitHub: https://github.com/conanhujinming/text_dedup
#cpp
AI нельзя напрямую сравнивать с привычными историческими технологиями — оно развивается и впервые становится качественно иной технологией, способной превосходить человека во всех областях.
По данным Revelio Labs, с января 2023 года число вакансий для начинающих специалистов в США сократилось примерно на 35%, и в этом значительную роль сыграл AI.
Особенно сильно снижение ощущают молодые люди 16–24 лет: рынок труда в США переживает самый сложный период со времён пандемии.
Однако главный вопрос — не текущие проблемы занятости, а прогнозы о том, что AI может вытеснить значительную часть стартовых должностей в будущем.
#AI #JobMarket #FutureOfWork #Automation
Тонны промтов, гайдов и курсов в одном месте — запустилась первая соцсеть для экспериментов с ИИ.
То, что начиналось как простой обмен промтами, всего за пару месяцев превратилось в активное комьюнити.
Здесь есть удобный поиск, фильтры по темам, моделям и задачам, а лучшие находки сами выходят в топ благодаря участникам.
Не трать время на изобретение с нуля — скорее всего, кто-то уже придумал промт за тебя 😋
Присоединяйтесь — это именно то место, где стоит быть.
https://altsociety.ai/
🛠️ Приложение CADAM: текст в 3D-модели
CADAM — это веб-приложение с открытым исходным кодом, которое преобразует текст и изображения в 3D-модели. Использует AI для генерации, поддерживает экспорт в различные форматы и работает в браузере благодаря WebAssembly.
🚀 Основные моменты:
- AI-генерация 3D-моделей из текстовых описаний
- Интерактивные параметры для мгновенной настройки
- Экспорт в форматы .STL и .SCAD
- Полностью браузерное приложение
- Поддержка библиотек BOSL и MCAD
📌 GitHub: https://github.com/Adam-CAD/CADAM
FineVision — огромный open-source датасет для обучения современных Vision-Language моделей!
В цифрах это выглядит так:
🖼 17.3M изображений
📦 24.3M сэмплов
💬 88.9M диалоговых шагов
🔡 9.5B токенов ответов
✨ Несколько интересных находок из датасета:
Разнообразие доменов: от повседневных фото до сложных технических изображений.
Многоступенчатые диалоги помогают моделям лучше понимать контекст.
Сильный фокус на качество аннотаций и баланс данных.
👉 FineVision открывает новые возможности для исследований и создания ещё более умных VLM-моделей
http://huggingface.co/spaces/HuggingFaceM4/FineVision
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
🔥 Подборка для LLM Fine-Tuning
На GitHub собрали огромную коллекцию датасетов, тулзов и концептов для тонкой настройки LLM.
📂 Всё аккуратно разложено по категориям:
- 🧮 Math & Logic
- 💻 Code
- 💬 Conversation & Role-Play
- 🤖 Agent & Function Calling
⚖️ Все датасеты доступны под свободными лицензиями (Apache 2.0, MIT, CC-BY-4.0 и др.).
👉 Репозиторий: https://github.com/mlabonne/llm-datasets
🧩 Streamdown: Markdown для AI-стриминга
Streamdown — это замена react-markdown, оптимизированная для потоковой передачи Markdown-контента от AI. Он обеспечивает плавное форматирование даже при неполных блоках, что делает его идеальным для интеграции с AI-решениями.
🚀 Основные моменты:
- 🔄 Обработка неполных Markdown блоков
- 🎨 Поддержка GitHub Flavored Markdown
- 🔢 Рендеринг математических формул с помощью KaTeX
- 🛡️ Безопасное рендеринг на основе harden-react-markdown
- ⚡ Оптимизированная производительность с мемоизацией
📌 GitHub: https://github.com/vercel/streamdown
🤖 YandexGPT 5.1 Pro для корпоративных задач
Новая версия генеративной модели от Яндекса теперь доступна через API в Yandex Cloud AI Studio. Главное отличие — ориентация на бизнес-процессы: автоматизация документооборота, работа с внутренними базами знаний и интеграция в CRM.
Модель стала заметно точнее: 71% хороших ответов (против 60% раньше), число ошибок снизилось почти вдвое — до 16%. В бенчмарках она выигрывает у GPT-4.1 в 56% случаев, а также лучше понимает российский контекст и честно сообщает «не знаю», если данных нет.
Стоимость снижена втрое: 40 коп. за 1000 токенов
@bigdatai
🔥 Thyme: Think Beyond Images
Thyme — это инновационная модель, которая улучшает обработку изображений и сложные задачи рассуждения, используя автономное генерирование и выполнение операций через исполняемый код. Она сочетает в себе методы супервайзинга и обучения с подкреплением, обеспечивая высокую точность выполнения кода.
🚀 Основные моменты:
- Автономная генерация и выполнение операций с изображениями.
- Комбинация супервайзинга и обучения с подкреплением.
- Поддержка высокоразрешающей перцепции и сложного рассуждения.
- Использует алгоритм GRPO-ATS для оптимизации работы.
📌 GitHub: https://github.com/yfzhang114/Thyme
#python
@bigdatai
🎙 Ученые из Сбера предложили способ, как даже при небольшом объеме обучающих данных локальными моделями добиться высокой точности обнаружения галлюцинаций LLM — это прорыв в выявлении галлюцинаций искусственного интеллекта
Что важно:
– Точность выявления ошибок выше на ~30% по сравнению с аналогами.
– Для обучения хватает всего 250 примеров.
– Основан на анализе внутренних состояний LLM.
– Работает на классических алгоритмах и трансформере TabPFNv2.
– Снижает затраты на разметку и повышает надёжность ответов ИИ.
🦀 Rust LLM from Scratch
RustGPT — это реализация языковой модели на основе трансформеров, созданная с нуля на Rust без внешних ML-фреймворков. Проект включает предобучение на фактическом тексте, настройку для диалогового ИИ и интерактивный режим тестирования.
🚀 Основные моменты:
- Полное предобучение и настройка модели
- Модульная архитектура с четким разделением задач
- Использование ndarray для операций с матрицами
- Поддержка градиентного спуска и обрезки градиентов
- Интерактивный режим для тестирования модели
📌 GitHub: https://github.com/tekaratzas/RustGPT
#rust
🖥 obsidian-smart-composer — это ИИ-помощник чата для Obsidian с контекстной осведомленностью, интеллектуальной помощью при написании и редактированием одним кликом! Он включает в себя разговоры с поддержкой хранилища, семантический поиск и поддержку локальной модели.
🔐 Лицензия: MIT
🖥 Github
@bigdatai
Создавая будущее: магистратура по прикладному ИИ
Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами.
Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний.
За 2 года вы научитесь:
Использовать Python и его библиотеки.
Генерировать гипотезы и подбирать алгоритмы для разных моделей.
Строить конвейеры обработки данных.
Автоматизировать ML-пайплайн.
А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT.
Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу.
Подать документы можно до 18 сентября.
Узнайте подробности по ссылке: https://netolo.gy/emS1
Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5xqAdd3
👣 Google объявил релиз **Genkit Go 1.0** — стабильную, готовую к продакшену версию open-source фреймворка для разработки AI-приложений на Go.
Также представлена новая команда genkit init:ai-tools для лёгкой интеграции с AI-ассистентами в процессе разработки.
🔑 Что нового в Genkit Go 1.0
1. Production-ready
API признан стабильным: все программы, написанные на Genkit 1.*, будут работать и собираться в будущих минорных версиях.
2. Type-safe AI-flows
- Определение “flows” через Go-структуры и JSON Schema.
- Повышенная типобезопасность, тестируемость, наблюдаемость и удобство при деплое.
3. Унифицированный интерфейс моделей
Поддержка разных провайдеров (Google AI, Vertex AI, OpenAI, Ollama и др.) через единый API — легко переключаться между ними.
4. Tool calling, RAG и мультимодальность
- Вызов внешних инструментов (tool calling).
- Retrieval-augmented generation (RAG).
- Поддержка мультимодальных сценариев (текст, изображения и др.).
5. Инструменты для разработчиков
- Независимая CLI-утилита для локальной разработки.
- Developer UI: тестирование промтов, отладка flows, отслеживание производительности и трассировка.
6. Команда `genkit init:ai-tools`
Автоматическая интеграция с AI-ассистентами разработки: Gemini CLI, Firebase Studio, Claude Code, Cursor и др.
7. Примеры кода
В официальной документации показано, как определять flows, запускать HTTP endpoints, работать с моделями и инструментами.
🚀 Почему это важно
- Быстрая и безопасная разработка AI-приложений на Go.
- Унифицированный API позволяет экспериментировать и менять провайдеров без переписывания логики.
- Встроенные dev-инструменты ускоряют отладку и интеграцию.
- Подходит как для прототипов, так и для production-решений.
📌 Официальный анонс: https://developers.googleblog.com/en/announcing-genkit-go-10-and-enhanced-ai-assisted-development/?linkId=16710004Нужно
@Golang_google
#Genkit #GoLang #GoogleAI #AIDevelopment #OpenSource #RAG
🤖 Легковесный AI-агент на C для командной строки
Agent-C — это ультралегкий AI-агент, который взаимодействует с OpenRouter API и выполняет команды оболочки. Он оптимизирован для работы на macOS и Linux, обеспечивая минимальный размер бинарников и эффективное управление памятью.
🚀Основные моменты:
- Выполнение команд оболочки через AI-ответы
- Минимальный размер: 4.4KB для macOS, ~16KB для Linux
- Эффективное управление памятью с помощью скользящего окна
- Кроссплатформенная поддержка
📌 GitHub: https://github.com/bravenewxyz/agent-c
#c
🤖 XLeRobot — домашний робот за $660, который управляется с геймпада Xbox.
XLeRobot — это открытый проект, который позволяет собрать настоящего двухрукого мобильного робота своими руками.
Автор — студент Rice University Gaotian Wang, в проектеон сделал упор на доступность и практичность.
💡 Основное:
- Цена сборки ≈ $660 — полноценный робот с двумя руками и колесной базой.
- Можно собрать упрощённую версия за $250 на базе LeKiwi + SO-100, которая собирается быстрее.
- В комплекте: URDF-модели, симуляция, управление через VR, Joy-Con или Xbox-геймпад.
- Подходит для экспериментов в симуляции и переноса в реальный мир (**Sim2Real**).
взаимодействия с окружающей средой.
📈 Популярность: проект уже собрал 1.7k+ звёзд и десятки форков на GitHub.
XLeRobot — это недорогая и открытая платформа для тех, кто хочет попробовать себя в робототехнике, исследовать управление, симуляцию и AI-алгоритмы на реальном роботе.
🟢Репозиторий: github.com/Vector-Wangel/XLeRobot
@ai_machinelearning_big_data
#robotics #opensource #AI
🔥 Успех в IT = скорость + знания + окружение
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_1001_notes
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
Разработка сервиса с передовыми LLM-моделей в одном окне
Интересный кейс на Хабре — red_mad_robot провели технологический эксперимент и сделали AI-сервис Daisy — с большинством ведущих LLM и кастомной нейросетью для генерации изображений под капотом. В материале подробный рассказ, как выстраивать AI-based UX и объединить разные модули в многоуровневую архитектуру, описана маршрутизация и логические слои сервиса.
Для безопасности и точности ответов в Daisy собрали собственный контент-фильтр, который анализирует смысл запроса, а не просто ключевые слова. С учетом ложных срабатываний точность фильтра составила 87%.
📎 Читайте кейс полностью на Хабре: https://habr.com/ru/companies/redmadrobot/articles/941398/
AI-агенты вместо генеративок
Генеративные модели были лишь разминкой. Теперь на повестке системы, которые могут выполнять задачи сами: от покупки билетов до развёртывания облака. По сути — шаг к тому, чтобы ИИ стал полноценным участником рабочих процессов, а не просто генератором кода или контента.
В подкасте «Мы обречены» это обсуждают подробно: что уже умеют агенты, какие инструменты появляются и где ждать первых внедрений.
@bigdatai
🚨 NEWS: xAI подала в суд на своего бывшего инженера Xuechen Li
Компания обвиняет его в краже технологий Grok и передаче их в OpenAI.
📌 Из иска:
> В июле он забрал секретные файлы после того, как продал акции xAI на $7 млн и принял оффер от OpenAI
> 14 августа Li признался в краже во время встречи
> Позже xAI обнаружила на его устройствах ещё больше украденных данных
> Компания требует компенсацию и запрет на переход Li в OpenAI
⚖️ Судебный процесс только начинается, но ставки очень высоки.
news: https://reuters.com/legal/litigation/musks-xai-sues-engineer-allegedly-taking-secrets-openai-2025-08-29/
🚨 OpenAI выпустила HealthBench на Hugging Face!
🧑⚕️ Новый датасет создан для строгой оценки возможностей больших языковых моделей в области здравоохранения.
В него вошло 5 000 реалистичных медицинских диалогов, подготовленных при участии сотен врачей со всего мира.
⚡ Это важный шаг для применения ИИ в медицине — теперь модели будут проверяться не только на знания, но и на качество помощи человеку.
👉 Датасет доступен здесь: https://huggingface.co/datasets/openai/healthbench
🔥 Intern-S1-mini — новая лёгкая опенсорсная мультимодальная reasoning-модель
✨ 8B LLM + 0.3B vision encoder
✨ Лицензия Apache 2.0
✨ Обучение на 5T мультимодальных данных (50%+ — научные домены)
✨ Dynamic tokenizer для молекул и белковых последовательностей
🔗 https://huggingface.co/internlm/Intern-S1-mini
🚀 NVIDIA ускорила LLM в 53 раза 🤯
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
🟠Github
🟠Статья
@data_analysis_ml
🚀 🌌MCP Universe🌌 — новый сложный бенчмарк для AI-агентов в реальных условиях.
🏆 Результаты:
🥇 GPT-5 — 43.7%
🥈 Grok-4 — 33.3%
🥉 Claude-4.0-Sonnet — 29.4%
Что это значит?
- 11 реальных MCP-серверов в 6 областях
- 133 доступных инструмента
- 231 задача, созданная вручную и проверенная экспертами
- Оценка по реальному выполнению действий, а не только по тексту
🌐 Сайт проекта: https://github.com/SalesforceAIResearch/MCP-Universe) |
📄 Статья: https://arxiv.org/abs/2508.14704