data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи

Главная фишка - Audio Tags.


Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

@ai_machinelearning_big_data

#google `#tts

Читать полностью…

Анализ данных (Data analysis)

ИИ решил задачу Эрдёша за 80 минут. Люди тратили на неё годы

GPT-5.4 Pro закрыл проблему №1196 из списка Эрдёша. Это задачи про primitive sets - наборы чисел, где ни одно число не делит другое.

Пример простой:
• {2, 3, 5} работает
• {2, 4} ломается, потому что 2 делит 4

На этом простота заканчивается. Дальше начинается сложная теория чисел, связанная с простыми числами и факторизацией.

Конкретно эта задача про то, как такие наборы ведут себя в целом. Не один пример, а общая структура и ограничения.

Контекст важный. Один из главных экспертов по теме, Jared Lichtman, разбирал эту задачу около 7 лет вместе с топовыми математиками. Это не забытая проблема, её активно пытались решить.

ИИ справился примерно за 80 минут.

Все десятилетиями шли через один и тот же подход. Аналитика плюс вероятностные методы. Это стало негласным стандартом.

Модель просто отказалась от этого пути и осталась в чистом анализе, используя веса фон Мангольдта.

Фактически она пошла дорогой, которую люди игнорировали из-за математической интуиции и привычек.

В результате получилось не просто решение, а аккуратное доказательство, которое потенциально упрощает более широкий класс задач.

Если это подтвердится, это повлияет не на одну задачу, а на целый кусок теории чисел.

Похоже, что модели начали находить не только ответы, но и неожиданные идеи, которые люди системно пропускали.

https://x.com/jdlichtman/status/2044298382852927894

Читать полностью…

Анализ данных (Data analysis)

🖥 NVIDIA переписала правила квантовых компьютеров

Главный стопор квантовых технологий был не в железе, а в хаосе. Кубиты слишком хрупкие: малейшее изменение температуры или микровибрация и вычисление просто разваливается.

Поэтому инженеры тратят дни на ручную калибровку. Медленно, дорого и нестабильно. А системы коррекции ошибок банально не успевают за происходящим в реальном времени.

NVIDIA зашла с другой стороны и превратила ИИ в «операционку» для квантовых машин.

Они выкатили open-source семейство моделей - NVIDIA Ising.

Теперь вместо ручной настройки модель буквально «смотрит» на квантовый процессор через vision-language подход и мгновенно реагирует на изменения.

Калибровка сжимается с дней до часов.

NVIDIA сделали 3D-нейросеть, которая в реальном времени декодирует и исправляет ошибки квантового состояния. Быстрее и точнее текущих open-source решений в разы.

ИИ фактически предугадывает, где система сломается, и чинит её до того, как это произойдёт.

Хуанг называет это control plane для квантовых компьютеров.

И это уже не лабораторный эксперимент. Harvard University, Lawrence Berkeley National Laboratory и Fermilab уже интегрируют решение.

Пост в X: https://x.com/nvidianewsroom/status/2044058999029473407

Пресс-релиз NVIDIA: https://nvidianews.nvidia.com/news/nvidia-launches-ising-the-worlds-first-open-ai-models-to-accelerate-the-path-to-useful-quantum-computers

NVIDIA Ising: https://www.nvidia.com/en-us/solutions/quantum-computing/ising/

NVIDIA CUDA-Q: https://developer.nvidia.com/cuda-q

NVIDIA NVQLink: https://www.nvidia.com/en-us/solutions/quantum-computing/nvqlink/

NVIDIA NIM: https://www.nvidia.com/en-us/ai-data-science/products/nim-microservices/

NVIDIA Quantum Day: https://www.nvidia.com/en-us/events/quantum-day/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В Claude Code добавили Routines - способ превратить разовые команды в повторяемые сценарии.

Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.

По сути это не промпты, а воспроизводимые workflow внутри Claude Code

Что это даёт:

- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине

Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.

code.claude.com/docs/en/routines

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Cтартап, в который ты только что влился, где вся команда работает с Claude Code.

Читать полностью…

Анализ данных (Data analysis)

🤖 Автономные AI-агенты для инженерии

AutoAgent позволяет AI-агентам самостоятельно настраивать и улучшать свои конфигурации, используя мета-агента. Пользователь задает задачи через program.md, а агент автоматически модифицирует свою архитектуру и оценивает результаты.

🚀 Основные моменты:
- Автоматическая настройка AI-агентов без прямого редактирования кода.
- Использует Markdown для задания задач и инструкций.
- Оценка производительности через числовые баллы.
- Поддержка Docker для изоляции выполнения.
- Совместимость с задачами Harbor.

📌 GitHub: https://github.com/kevinrgu/autoagent

#python

Читать полностью…

Анализ данных (Data analysis)

🖥 Сохраняй МЕГАШПАРГАЛКУ ПО CLAUDE CODE. В н Это один из самых плотных гайдов по Claude Code.

В сеть слили один из самых плотных гайдов по Claude Code. Не набор советов, а реально сжатая карта всей системы на одном листе.

Внутри разобрано - как устроен сервис изнутри, как правильно стартовать проект, как работает память и иерархия. Плюс показали нормальную структуру проекта, без хаоса.

Отдельно прошлись по практическим вещам.

Скиллы, хуки, рабочие паттерны, горячие клавиши. То, что реально экономит часы в повседневной работе.

Это информация о том, как люди реально используют Claude Code каждый день.

Сохрани. Чтобы потом не искать.

Читать полностью…

Анализ данных (Data analysis)

🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.

Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.

Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.

Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.

Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.

Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.

Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.

Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки

Замечали ли вы, что Claude стал тупее в последнее время ?🤯


Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.

234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.

После этого Anthropic ответили и фактически подтвердили её выводы.

Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇

https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

@ai_machinelearning_big_data

#news #ai #ml #claude

Читать полностью…

Анализ данных (Data analysis)

Это нельзя развидеть

opus 🤣🤣🤣🤣

Читать полностью…

Анализ данных (Data analysis)

21 апреля приглашаем на бизнес-митап «Лаборатория решений DataLens» — офлайн-встречу о BI и аналитике данных.

📍 Loft Hall (Avantage), м. Автозаводская
Сбор гостей с 16:30, начало в 17:00

Формат — демонстрация реальных кейсов: партнёры покажут решения на базе DataLens для задач из ритейла, финансов, госсектора и фармы.

Что будет:
— Решения бизнес-задач от Навикон, КОРУС Консалтинг, Смарт-Аналитикс, SQEEL
— Доклад команды DataLens о развитии и новых возможностях
— Q&A по архитектуре и подходам
— Нетворк и фуршет

💡 Вы увидите, как создаются решения: от архитектуры до дашбордов и оценки эффективности.

Кому будет полезно:
— компаниям, выбирающим BI
— аналитикам и специалистам по данным

👉 Регистраци по ссылке.

Читать полностью…

Анализ данных (Data analysis)

Теперь можно бесплатно дообучать Gemma 4 31B прямо в ноутбуке 🚀

Обучение модели на 31 миллиард параметров полностью бесплатно с использованием Kaggle и Unsloth.

GitHub: https://github.com/unslothai/unsloth

Гайд: https://unsloth.ai/docs/models/gemma-4/train

Ноутбук: https://kaggle.com/code/danielhanchen/gemma4-31b-unsloth

Читать полностью…

Анализ данных (Data analysis)

🚨 Claude Code ускорили в 4 раза на больших кодовых базах

Один и тот же таск. Один и тот же промпт. Меняется только инструмент.

Без него Claude Code 8 минут бродит по коду, читает десятки файлов и всё равно пропускает важные зависимости. В итоге решение сырое.

С ним тот же сценарий занимает около 2 минут и даёт более точный результат.

Речь про repowise.

Инструмент repowise - строит структурную модель проекта. Граф зависимостей с приоритизацией. Историю изменений с зонами ответственности. Автоген документации. И слой решений, который фиксирует, зачем вообще написан код.

Этот слой решает главную проблему. Обычно модель не понимает контекст решений и начинает действовать вслепую.

В тесте на репозитории с 3000 файлов задача была добавить rate limiting во все API.

Без repowise модель читает случайные файлы, не видит ключевые связи и ломает скрытые зависимости.

С repowise хватает нескольких вызовов. Модель сразу находит все зависимости, обнаруживает существующую логику ретраев и даже подсказывает, кто должен ревьюить изменения.

Расход токенов падает примерно на 60 процентов. Модель перестаёт читать всё подряд и работает точечно.

Дополнительно repowise генерирует CLAUDE.md на основе реального состояния репозитория.

Self hosted. Работает локально. Можно использовать с Ollama.

https://github.com/repowise-dev

Читать полностью…

Анализ данных (Data analysis)

Господдержка может ускорить развитие ИИ в России

На конференции Data Fusion представитель ВТБ отметил, что без господдержки рынок ИИ не сможет масштабироваться. Главные узкие места — инфраструктура (ЦОДы) и доступ к высокопроизводительным чипам. Эти задачи бизнес в одиночку закрыть не может.

Отдельный вопрос — экономика: ИИ-проекты требуют крупных инвестиций и долго окупаются, из-за чего часто проигрывают другим направлениям по эффективности.

В качестве решения предлагают классический набор стимулов: субсидии, налоговые льготы и другие меры поддержки, которые должны ускорить внедрение технологий.

Фактически речь о том, что без системной помощи государства ИИ останется нишевой историей, а не массовой инфраструктурой. А вы как думаете?

🎯Полезные Мл-ресурсы 🚀 Max

Читать полностью…

Анализ данных (Data analysis)

🚨 Claude восстановил игру 90-х без исходников

Разработчик откопал свой проект 1992 года. Тогда ему было 19. Это была мультиплеерная игра на CompuServe, она даже получила награду и закрылась в 1999.

Исходников не осталось. Только скрипты на кастомном языке, который он сам придумал для гейм-мастеров, старый мануал и запись геймплея.

Он просто загрузил всё это в Claude Code и попросил разобраться.

Модель сначала восстановила сам язык. Без документации и без примеров в сети. Вытащила грамматику из скриптов и текста, который писался для людей без технического бэкграунда.

После этого она пересобрала игру с нуля. Полноценный мир с тысячами комнат, предметами, монстрами, магией, крафтом и боевой системой.

Проект, который в 90-х собирался месяцами, был восстановлен за выходные.

Модель работает с неполными данными, восстанавливает структуру и доводит систему до рабочего состояния.

Фактически это реверс-инжиниринг без исходников.

Игра сейчас доступна бесплатно, код открыт.

Читать полностью…

Анализ данных (Data analysis)

🚀 Представь: уровень рассуждений как у Claude 4.6 Opus, но полностью локально на твоей GPU с всего 16GB VRAM

Эта версия Qwen3.5 на 27B параметров, дистиллированная на reasoning-трейсах Claude 4.6 Opus, даёт уровень кодинга почти как у топовых моделей — но без облака

Что внутри:
- Обгоняет Claude Sonnet 4.5 на SWE-bench даже в 4-битной квантизации (Q4_K_M)
- Сокращает chain-of-thought на 24% — меньше мусора, быстрее ответы
- Сохраняет 96.91% точности на HumanEval
- Идеально подходит для агентных циклов (без API и задержек)

📦 Уже 300K+ скачиваний на Hugging Face

Локальные модели начинают догонять фронтир и это только начало

https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Читать полностью…

Анализ данных (Data analysis)

Наконец-то нашёл холодильник, который понимает, почему я в три часа ночи открываю его в седьмой раз.

Читать полностью…

Анализ данных (Data analysis)

Трансформация профессии разработчика в эпоху ИИ

Профессия разработчика меняется прямо сейчас: ИИ уже пишет код, предлагает архитектуру и собирает прототипы за минуты. Но без фундаментальных знаний архитектуры, алгоритмов, сетей, безопасности и DevOps использовать такие инструменты рискованно.
Центральный университет запускает серию бесплатных вебинаров о том, как меняется роль разработчика в 2026 году, какие навыки остаются критически важными и как безопасно и эффективно использовать нейросети в разработке.

На вебинарах разберем:
— почему ИИ не заменит программиста, но изменит его роль;
— какие навыки и языки будут востребованы;
— чего ждут работодатели от разработчиков сегодня;
— почему магистратура по бэкенд-разработке может стать преимуществом;
— как вырасти в техлида и тимлида, не теряя технических экспертных знаний.

Спикеры — лидеры индустрии из Центрального университета, Авито и cloud. ru.
Даты вебинаров: 21, 23 и 27 апреля 2026, 19:00 мск.

Регистрируйся по ссылке

Читать полностью…

Анализ данных (Data analysis)

🔧 Вышел «Claude Code для хакеров» - Decepticon. И это уже не игрушка, а полноценный боевой агент, который может заменить команду пентестеров.

ИИ строит цепочки атак и ломает бизнес-логику систем. По сути, ты получаешь симуляцию настоящего противника у себя под рукой.

Главное отличие от подобных решений - автономность.

Агент сам принимает решения, двигается по системе и подбирает стратегии под задачу. Тебе не нужно вручную вести каждый шаг, достаточно задать цель.

Под каждую задачу поднимается отдельный агент, чтобы не было каши в контексте и лишней нагрузки. Управление через консоль - без перегруза, всё быстро и понятно.

Разворачивается через Docker, а вся активность остаётся внутри изолированной среды. Можно спокойно тестировать сценарии атак и прокачивать навыки без риска.

Фактически это твой персональный red team в коробке.

https://github.com/PurpleAILAB/Decepticon

Читать полностью…

Анализ данных (Data analysis)

🖥 Агентные системы ломаются не из-за моделей. Они ломаются, когда человек слишком рано выходит из процесса.

Peter Steinberger (создатель OpenClaw) точно подметил: нельзя ожидать крутой результат, если ты убрал главное - собственый взгляд и контроль.

Агент сам по себе не понимает, что «хорошо», а что «средне». Это задаёшь ты.

Результат всегда складывается из трёх вещей: чёткое видение задачи, постоянное управление и корректировка работы агента по ходу работы.

Если этого нет, даже лучший агент превращается в генератор хаотичных действий

Агенты не работают вместо тебя. Они работают лучше вместе с тобой.

Читать полностью…

Анализ данных (Data analysis)

⚡️ NVIDIA раздает жирнейший набор API - почти сотка нейросетей бесплатно

Без лишнего шума: открыли доступ к 95+ моделям сразу. Внутри всё, что сейчас в топе - DeepSeek, Kimi, Mistral, Qwen, Flux, Whisper, GLM и ещё пачка инструментов под любые задачи.

Можно собирать свои продукты без вложений: озвучка, чат-боты, липсинк, генерация видео, дизайн. Всё через API, без костылей и с нормальным качеством.

Самое интересное - выкатили доступ к своим моделям. Обязательно попробуй Nemotron: отлично режет шум и вытягивает звук даже с плохого микрофона.
Забирай, пока не прикрыли.

https://build.nvidia.com/models

#NVIDIA

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Bloomberg: чиновники администрации Трампа призывают банки протестировать модель Mythos от Anthropic.

Речь идёт о том, чтобы рассматривать Mythos как рабочий инструмент киберзащиты.

В Anthropic заявляют, что Mythos - это универсальная модель, которая неожиданно показала высокую эффективность в обнаружении и эксплуатации уязвимостей нулевого дня, то есть таких багов, для которых ещё не выпущены исправления.

Также в компании отмечают, что Mythos находила уязвимости в крупных операционных системах и браузерах, поэтому доступ к ней был ограничен через Project Glasswing вместо широкого релиза.

В Великобритании тоже отреагировали: регуляторы и национальное киберагентство обсуждают, несёт ли Mythos риски для банков, страховых компаний и бирж.

bloomberg.com/news/articles/2026-04-10/wall-street-banks-try-out-anthropic-s-mythos-as-us-urges-testing

Читать полностью…

Анализ данных (Data analysis)

🖥 У NVIDIA и Unsloth опубликован один из самых полезных гайдов по созданию RL-окружений с нуля, закрыв пробелы, которые обычно пропускают в туториалах.

Разбирают:

• почему RL-окружения вообще важны и как их правильно строить
• в каких случаях RL выигрывает у SFT
• best practices для GRPO и RL
• как работают проверяемые награды и RLVR

Годнота)

https://unsloth.ai/blog/rl-environments

Читать полностью…

Анализ данных (Data analysis)

🤯 Вышел GemOpus-4 26-A4B - локальный Opus на минималках

Новая модель от JackRong - это Gemma 4, но с reasoning в стиле Claude Opus.

Что внутри:

База: Gemma 4 26B MoE
Активных параметров всего 4B
Поверх - дистилляция логики Opus

По факту это попытка упаковать уровень рассуждений больших моделей в компактный локальный формат.

По перфу:

• ~75 токенов в секунду
• 22.7 GB VRAM
• Контекст до 131K

То есть модель реально можно крутить локально и получать нормальный reasoning, а не просто автодополнение.

Если связать с агентом типа HemresAgent - получается уже почти полноценный локальный AI-ассистент под задачи разработки и автоматизации.

Хороший вариант, если хочется мощный reasoning без облака и с контролем над всем стеком

https://huggingface.co/Jackrong/Gemopus-4-26B-A4B-it-GGUF

Читать полностью…

Анализ данных (Data analysis)

Исследователи из Национального университета Сингапура представили DMax: новый подход для diffusion LLM.

Вместо последовательного вывода токенов модель генерирует их параллельно, но при этом не разваливается по качеству

Ключевая идея - превратить декодирование в процесс самокоррекции.

Модель не просто пишет ответ, а постоянно пересматривает и исправляет свои же предсказания прямо по ходу генерации.

Это решает главную проблему параллельной генерации - накопление ошибок

По цифрам:

• DMax заметно обгоняет LLaDA-2.0-mini
• TPF на GSM8K вырос с 2.04 до 5.47
• на MBPP с 2.71 до 5.86
и всё это без потери точности

Скорость - до 1338 токенов в секунду на H200

Paper: https://huggingface.co/papers/2604.08302
Code: https://github.com/czg1225/DMax
Models: https://huggingface.co/collections/Zigeng/dmax-models
Datasets: https://huggingface.co/collections/Zigeng/dmax-training-data

Читать полностью…

Анализ данных (Data analysis)

🚨 Tencent выложили модель для агентов HY-Embodied-0.5

Это модель, заточенная под embodied агентов. То есть тех, кто действует в физическом мире или его симуляции.

Фокус смещён с текста на восприятие и действие. Модель учится понимать пространство, время и принимать решения на основе этого.

В линейке две модели.

• Модель на 2B параметров открыта и подходит для edge-сценариев. Её можно гонять локально и встраивать в реальные системы.

• Модель на 32B уже про сложное планирование и reasoning. По качеству она приближается к фронтирным решениям.

Архитектура Mixture-of-Transformers. Разные части модели обрабатывают разные типы данных. Это снижает шум и даёт более точное восприятие.

Latent tokens. Более компактное представление визуальной информации, что помогает модели лучше понимать окружение.

Self-evolving post-training. Модель продолжает дообучаться и улучшать поведение после базового обучения.

On-policy distillation. Знания переносятся с большой модели на маленькую без сильной потери качества.

По бенчмаркам маленькая модель обгоняет аналоги на большинстве задач. Это важный сигнал для edge и роботики.

GitHub: https://github.com/Tencent-Hunyuan/HY-Embodied

Hugging Face: https://huggingface.co/tencent/HY-Embodied-0.5

Читать полностью…

Анализ данных (Data analysis)

🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти.

Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео.

Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску.


Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов.

Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков.

🟡 Поверх графа работает Graph-Modulated Visual Memory Encoding.

Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков.

Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам).

🟡Третий компонент - Graph-GPO.

GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных.

По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга.


🟡Тесты

🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench).

🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2.

При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ.

В репозитории доступны:

🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB);

🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом).

Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео.

Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba.



🟡Arxiv
🟡Модель
🖥GitHub

#AI #ML #RAG #VRAG #TongyiLab

Читать полностью…

Анализ данных (Data analysis)

Liquid AI выпустили LFM2.5-VL-450M - vision-language модель для edge-устройств.

Обрабатывает картинку 512×512 за ~240мс на устройстве, без облака. Хватает на 4 FPS видеопоток с пониманием происходящего, а не просто детекцией.

Главное: один инференс заменяет привычную связку детектор → классификатор → эвристики. Весь multi-stage пайплайн в одном проходе.

В релизе добавили bounding box prediction (81.28 на RefCOCO-M), мультиязычный визуал на 8 языках и function calling.

Крутится на Jetson Orin, Samsung S25 Ultra, AMD 395+ Max.

Веса открыты.

huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU

Читать полностью…

Анализ данных (Data analysis)

Claude Mythos сейчас выглядит именно так, по рассказам Anthropic

Читать полностью…

Анализ данных (Data analysis)

Сегодня Anthropic запустила в открытую бету Claude Managed Agents - хостируемый сервис для запуска долгоживущих агентов на инфраструктуре Claude Platform.

Если коротко: вы описываете задачи, инструменты и ограничения, а всё остальное берет на себя платформа.

Самое интересное спрятано в инженерном блоге, где команда описала архитектуру. Они пришли к ней через боль. Первая версия упаковывала всё в один контейнер: и сессию, и harness (цикл вызовов модели), и sandbox. Контейнер превращался в "питомца" - если он падал, сессия терялась. Дебажить можно было только через шелл внутри контейнера, а там лежали пользовательские данные. Когда клиенты хотели подключить свой VPC, им приходилось пирить сети.

Решение: декомпозиция на три интерфейса. Session - append-only лог всех событий, живущий отдельно от всего. Harness - stateless оркестратор, который при падении просто перезапускается, подтягивает лог через getSession(id) и продолжает с последнего события. Sandbox - среда исполнения, к которой harness обращается как к обычному инструменту через execute(name, input) → string. Каждый компонент стал "скотом", а не "питомцем" в классической инфраструктурной метафоре.

Отдельно стоит сказать про безопасность. В монолитной архитектуре prompt injection мог добраться до токенов, лежащих в том же контейнере. Теперь sandbox физически изолирован от credentials. Git-токены прошиваются в remote при инициализации, OAuth хранится в vault за прокси. Агент никогда не видит реальных ключей.

По перформансу результаты заметные: p50 TTFT (время до первого токена) упал на 60%, p95 - на 90 с лишним процентов. Контейнер теперь поднимается по требованию через tool call, а если задача не требует sandbox, инференс стартует сразу.

Архитектура поддерживает "many brains, many hands": один агент может управлять несколькими sandbox-ами, а несколько агентов могут передавать окружения друг другу. Сессия при этом выступает как объект контекста за пределами context window модели - harness может запрашивать срезы через getEvents(), трансформировать их и управлять cache hit rate.

Notion уже в закрытой альфе: команды делегируют задачи Claude прямо из рабочего пространства, десятки задач выполняются параллельно.

Философия проекта прямо проговаривается в блоге: это мета-harness. Anthropic намеренно не фиксирует конкретную реализацию оркестрации, потому что она устаревает с каждым поколением моделей. Они уже столкнулись с этим, когда "context anxiety" из Sonnet 4.5 исчез в Opus 4.5, а workaround превратился в мертвый код. Поэтому ставка на стабильные интерфейсы, за которыми реализация меняется свободно - ровно та же идея, что у POSIX: read() работает одинаково для диска из 70-х и современного SSD.

https://www.anthropic.com/engineering/managed-agents

Читать полностью…

Анализ данных (Data analysis)

Claude Mythos опять подогрел разговоры достигли мы AGI или нет .

При этом единого определения AGI как не было, так и нет. Google DeepMind еще в 2023-м попытались разрулить хаос и выкатили целую таксономию с уровнями от нуля до сверхчеловеческого.

Помогло примерно никак.

Итого: все спорят о том, достигли ли мы AGI, для определение которого тоже не можем договориться. Классика.

Читать полностью…
Subscribe to a channel