48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🚀 Похоже, в Claude Code появилась новая фича - Auto-dream
Пока официально не анонсирована, но её уже заметили в /memory
• Что это такое
Auto-dream - это фоновый подагент Claude, который:
- анализирует последние сессии
- извлекает ключевые знания
- обновляет MEMORY.md
- очищает и переорганизует старые данные
• Как устроена память
- MEMORY.md - это индекс
- отдельные файлы - детали по темам
- /memory - управление системой
👉 по сути, как garbage collector, но для памяти
🐍 Python полезные ресурсы 🚀Max
@data_analysis_ml
Если вы работаете с выгрузками из баз, логами сервисов или отчетами за годы — вы уже имеете дело со значениями, разделенными запятыми (CSV). Но умеете ли вы загружать CSV в Spark правильно?
На открытом уроке разберем, как из плоского файла получить распределенную коллекцию данных — DataFrame. Поймем, почему DataFrame — это не просто таблица, как настраивать разбор грязных данных, объявлять схему вручную и избегать ошибок в промышленной среде.
Вы увидите, как Spark взаимодействует с файловой системой, научитесь писать код для загрузки CSV в PySpark или Scala и разберетесь, когда достаточно pandas, а когда без Spark не обойтись.
Открытый урок проходит в преддверии старта курса «Spark-разработчик».
➡️ Подробности и регистрация: https://otus.pw/XM07/
🚀 Ускоряем внедрение ИИ-агентов в реальные задачи на Agents Week
Насыщенный интенсив от Школы анализа данных Яндекса пройдет с 6 по 10 апреля. Много про инженерных подход к современным агентным системам, их мониторинг и масштабирование. За пять дней поймете, с чего начать проектирование и настройку поведения, какие есть практики построения single-agent и multi-agent-систем, как доводить агентов о продакшена.
Формат: лекции с возможностью задать вопрос экспертам и практика.
Программа и спикеры — по ссылке. Там же можно зарегистрироваться до 9 апреля включительно.
Как запустить микросервисы в Managed Kubernetes
Микросервисное приложение мало просто задеплоить — нужны правила запуска, обновлений, масштабирования и изоляции. Именно они делают эксплуатацию предсказуемой, а инфраструктуру — готовой к росту нагрузки.
1️⃣ разберете, в каких проектах микросервисы действительно нужны и как быстро запустить готовое масштабируемое решение в облаке без лишних сложностей;
2️⃣ рассмотрите базовую структуру Kubernetes для микросервисов: что потребуется сразу, а что можно отложить;
3️⃣обсудите, как организовать деплой, обновления и откаты, чтобы релизы были управляемыми;
4️⃣ настроите масштабирование с помощью нативных инструментов Kubernetes;
5️⃣ свяжете платформу с реестром артефактов;
6️⃣ узнаете, как следить за метриками и логами приложения.
🤖 Palantir AI + Claude использовались для обнаружения, приоритизации и ударов по более чем 1000 целям в первые 24 часа операции против Ирана
Результат оказался настолько мощным и прорывным, что Пентагон даже не стал ждать.
То, что раньше было просто пилотным проектом и тестировалось в ограниченном режиме…
в один момент стало официальным, постоянным и начало масштабироваться повсюду.
Теперь Palantir - это ключевой “AI-мозг” всей армии США.
Система уже внедряется во все роды войск.
https://www.moneycontrol.com/world/how-palantir-and-anthropic-ai-helped-the-us-hit-1-000-iran-targets-in-24-hours-article-13853331.html
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти
• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)
• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям
• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности
• И самое интересное, никакой векторной базы данных не требуется
🚀 Проект станет open-source уже через 11 дней, следим:
https://x.com/DhravyaShah/status/2035517012647272689
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇
🖥 ИИ: t.me/ai_machinelearning_big_data
🖥 Python: t.me/pythonl
🖥 Linux: t.me/linuxacademiya
🖥 C++ t.me/cpluspluc
🖥 Docker: t.me/DevopsDocker
🖥 Хакинг: t.me/linuxkalii
🖥 Devops: t.me/DevOPSitsec
👣 Golang: t.me/Golang_google
🖥 Аналитика: t.me/data_analysis_ml
🖥 Javascript: t.me/javascriptv
🖥 C#: t.me/csharp_ci
🖥 Java: t.me/javatg
🖥 Базы данных: t.me/sqlhub
👣 Rust: t.me/rust_code
🤖 Технологии: t.me/vistehno
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
🖥Подборка по Golang: /channel/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: /channel/addlist/2Ls-snqEeytkMDgy
Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci
🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: /channel/addlist/HwywK4fErd8wYzQy
Первый «ИИ-стажёр» от OpenAI ожидается уже к сентябрю, а полноценная система запланирована к 2028 году.
Благодаря развитию reasoning-моделей и агентных систем вроде Codex, такие инструменты уже показывают резкий рост продуктивности — задачи, которые раньше занимали недели, теперь решаются за дни. Однако они всё ещё сталкиваются с проблемами надёжности и безопасности.
Тем не менее, OpenAI движется по пути создания полностью автономных исследователей.
https://x.com/techreview/status/2034969397513629914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🤖 Claude-to-IM Skill: AI Coding Agent for IM Platforms
Этот репозиторий предоставляет мост между Claude Code/Codex и популярными мессенджерами, такими как Telegram, Discord, Feishu и QQ. Пользователи могут взаимодействовать с AI-агентами для программирования через удобный интерфейс, получая ответы в реальном времени.
🚀 Основные моменты:
- Поддержка четырех платформ: Telegram, Discord, Feishu, QQ
- Интерактивная настройка с пошаговыми инструкциями
- Контроль разрешений на использование инструментов
- Возможность просмотра ответов в реальном времени
- Сохранение сессий после перезапуска
📌 GitHub: https://github.com/op7418/Claude-to-IM-skill
#javascript
Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
На встрече обсудят:
💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.
⚠️ Отчёты выглядят убедительно. Графики растут. Решения принимаются быстро. Но один вопрос может обрушить всю картину: насколько качественные ваши данные?
Проблема плохих данных редко заметна сразу. Она проявляется позже — в сломанных маркетинговых акциях, ошибках кредитного скоринга, неверных управленческих решениях и потерянной прибыли.
👨💻 На открытом уроке 1 апреля в 20:00 МСК разберём, как на практике выявлять проблемы в данных и предотвращать их последствия. Вы узнаете, что такое Data Quality, какие 6 ключевых метрик качества данных используют международные стандарты, и как автоматизировать контроль данных с помощью современных инструментов. На занятии проведём экспресс-аудит данных на реальном примере и покажем, как находить ошибки, которые напрямую влияют на бизнес-показатели.
➡️ Открытый урок проходит в преддверии старта курса «Качество данных / Data Quality». Принять участие: https://tglink.io/f683f51a044aad?erid=2W5zFHtJhRT
#реклама
О рекламодателе
⚡️ Загадочная модель Hunter Alpha появилась в сети и уже наделала много шума
По данным Reuters, на OpenRouter внезапно обнаружили новую ИИ-модель под названием Hunter Alpha.
И самое интересное - это может быть не просто ноунейм 👇
Есть слухи, что это скрытая тестовая версия DeepSeek V4.
Что известно на данный момент:
- около 1 триллиона параметров
- контекст до 1 миллиона токенов
- стиль рассуждений очень похож на chain-of-thought, как у DeepSeek
Во время тестирования модель сама указала:
- обучалась преимущественно на китайских данных
- knowledge cutoff — май 2025
И это практически полностью совпадает с тем, что ранее заявляли про DeepSeek.
Что это может быть:
👉 ранний тест перед релизом
👉 “тихий” запуск без анонса
👉 или хорошо замаскированная модель
Но главное здесь другое:
рынок снова движется в сторону
гигантских моделей + длинного контекста + сильного reasoning
И если это действительно DeepSeek V4 -
нас ждёт новый скачок в возможностях ИИ.
👉 https://www.reuters.com/business/media-telecom/mystery-ai-model-has-developers-buzzing-is-this-deepseeks-latest-blockbuster-2026-03-18/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Вот это комбо: ты, команда SberAds и шанс получить приглашение в Сбер за один день! ⚡️
28 марта Сбер устраивает One Day Offer* для Data Scientists**, готовых перевести эффективность SberAds, качество и релевантность показываемой рекламы на новый уровень.
Если ты хочешь работать над созданием и улучшением моделей для аукционов и свободно ориентируешься в Python, Go, S3, Spark — регистрируйся на One Day Offer*.
У тебя будет 8000+ коллег — масштабно, правда? Успей занять место в команде мечты!
* One Day Offer — предложение о работе за один день.
** Data Scientists — исследователи данных.
Nvidia DLSS 5 OFF / Nvidia DLSS 5 ON
Читать полностью…
⚡️ Нашёл интересный open-source проект: Crucix
Это self-hosted intelligence terminal, который автоматически следит за событиями в мире и присылает сигналы, когда что-то меняется.
По сути это персональный разведывательный агент для данных.
Crucix агрегирует данные примерно из 26 открытых источников и регулярно обновляет их.
Он собирает сигналы из разных категорий:
- геополитика
- экономика
- энергетика
- социальные тренды
- мировые события
И показывает всё это в едином self-hosted дашборде.
Главная идея — не читать десятки сайтов и новостей вручную.
Система сама:
• мониторит источники
• отслеживает изменения
• отправляет уведомления, если появляется важный сигнал
Фактически это инструмент раннего обнаружения трендов.
Можно использовать для:
- мониторинга рынков
- отслеживания геополитики
- анализа новостей
- поиска ранних сигналов изменений
Проект позиционируется как personal intelligence agent, который следит за миром и сообщает, когда происходит что-то важное.
https://github.com/calesthio/Crucix
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🚀 Cursor сделал regex-поиск мгновенным
Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс
И главное:
они не ускоряли regex
они убрали лишний поиск
🧠 Как это работает
- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex
👉 большинство файлов вообще не открывается
🔥 Ключевая идея - sparse n-grams
- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес
💾 Всё локально
- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map
Скорость даёт не regex
а умный отбор файлов до поиска.
https://x.com/cursor_ai/status/2036122609931165985
🚀 Anthropic показали новый режим:
AI может выполнять задачи на компьютере и по расписанию без твоего участия
Главное:
- Claude управляет компьютером
- кликает, вводит текст, открывает сайты
- выполняет задачи в браузере и приложениях
+ появился режим /schedule:
- ставишь задачу → задаёшь время
- Claude сам запускает и выполняет её
- даже если твой ноут выключен
- отчёты генерируются сами
- соцсети мониторятся автоматически
- задачи выполняются без контроля
https://claude.com/product/cowork#dispatch-and-computer-use
🐍 Python полезные ресурсы 🚀Max
@data_analysis_ml
🤖 Этот open-source репозиторий даёт твоему ClawdBot “зрение”
Это AI-ассистент в реальном времени для умных очков Meta Ray-Ban.
Он объединяет:
→ голос
→ зрение
→ действия агента
Работает через Gemini Live и OpenClaw.
Как это выглядит:
Ты надеваешь очки → нажимаешь кнопку AI → просто говоришь
Дальше:
• Gemini видит через камеру очков и описывает происходящее
• передаёт задачу в OpenClaw
• OpenClaw выполняет её через подключённые приложения
Можно:
→ отправлять сообщения в WhatsApp / Telegram / iMessage
→ искать информацию в интернете
→ получать ответы голосом
📊 Технически:
• камера очков передаёт изображение примерно 1 кадр в секунду в Gemini
• аудио работает в обе стороны в реальном времени
• OpenClaw выполняет действия как агент
По сути, это полноценный AI-ассистент, который видит мир вместе с тобой
https://github.com/Intent-Lab/VisionClaw
🐍 Python полезные ресурсы 🚀Max
🌟 Лучшие GitHub-репозитории для Claude Code, которые могут увеличить эффективность твоего следующего проекта:
1. Superpowers
https://github.com/obra/superpowers
→ Набор “супер-скиллов” для Claude: готовые промпты и инструменты, которые расширяют возможности агента (автоматизация, генерация кода, workflow).
2. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code
→ Кураторский список всего полезного вокруг Claude Code: гайды, тулзы, примеры, лучшие практики.
3. GSD (Get Shit Done)
https://github.com/gsd-build/get-shit-done
→ Фреймворк для реального продакшн-использования агентов: ставишь задачи - агент разбивает их и доводит до результата.
4. Claude Mem
https://github.com/thedotmack/claude-mem
→ Система памяти для Claude: позволяет агенту “помнить” контекст, прошлые действия и работать как долгоживущий ассистент.
5. UI UX Pro Max
https://github.com/nextlevelbuilder/ui-ux-pro-max-skill
→ Набор навыков для генерации интерфейсов: помогает Claude делать более качественные UI/UX решения и дизайн.
6. n8n-MCP
https://github.com/czlonkowski/n8n-mcp
→ Интеграция Claude с n8n: можно подключать агента к автоматизациям, API и workflow без кучи кода.
7. Obsidian Skills
https://github.com/kepano/obsidian-skills
→ Навыки для работы с Obsidian: управление заметками, knowledge base и личной базой знаний через Claude.
8. LightRAG
https://github.com/hkuds/lightrag
→ Лёгкая реализация RAG (Retrieval-Augmented Generation): быстро подключаешь свою базу данных к модели для более точных ответов.
9. Everything Claude Code
https://github.com/affaan-m/everything-claude-code
→ Универсальный сборник: шаблоны, примеры, инструменты - всё, чтобы быстро стартовать и прокачать Claude Code.
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это уже не code review.
Это distributed system из двух LLM, которые дебажат друг друга.
⚡️ Андрей Карпаты: спрос на софт взлетит, но это временно
Он отметил важный сдвиг:
Теперь код стал ephemeral (эфемерным, временным).
Его можно:
— переписать за секунды
— адаптировать под любого пользователя
— менять прямо на лету
Фактически весь digital-мир начинает пересобираться в реальном времени.
Что это значит:
• 📈 В краткосрочной перспективе
Спрос на разработку резко растёт,
потому что теперь можно сделать гораздо больше за то же время.
• 🤯 В долгосрочной перспективе
Даже те, кто создаёт AI, понимают:
они могут автоматизировать собственную работу.
Мы приходим к новой реальности: код больше не статичный продукт -
это динамический поток, который постоянно меняется.
Полное интервью: https://www.youtube.com/watch?v=kwSVtQ7dziU&t=1s
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🚀 Релиз LongCat-Flash-Prover - это одна из самых сильных open-source моделей для формальной математики.
Модель строит и проверяет доказательства как в реальной математике.
Внутри
• 🧠 Не один агент, а гибрид экспертов - модель генерирует и отбирает лучшие цепочки рассуждений
• ⚙️ Алгоритм HisPO - держит длинную логику без развала
• 🔍 Жесткая проверка:
- Lean4 (формальная математика)
- AST-анализ
- проверка корректности
→ галлюцинации почти убраны
📊 Результаты:
• 97.1% на MiniF2F (всего 72 попытки)
• 41.5% на PutnamBench (очень сложные задачи)
Это уже уровень, где open-source начинает догонять топовые research-модели.
📄 Paper: https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf
📂 GitHub: https://github.com/meituan-longcat/LongCat-Flash-Prover
🤗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🚀 OpenAI усиливает ставку на разработчиков
OpenAI покупает Astral - команду, стоящую за популярными Python-инструментами (uv, Ruff, ty).
Это не просто сделка.
Это шаг к контролю над реальным workflow разработчиков.
И на этом фоне Codex уже показывает мощный рост:
• рост пользователей в 3 раза
• рост использования в 5 раз с начала года
• более 2 млн активных пользователей в неделю
Начинается настоящая гонка:
Claude vs Codex ⚔️
Как уже говорил Дарио:
лучшая AI-компания с лучшим инструментом для программирования, это фундамент общей победы.
Побеждает не просто модель. Побеждает экосистема вокруг разработчиков.
И сейчас OpenAI явно ускоряется.
https://openai.com/index/openai-to-acquire-astral/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Разбор рынка ПО: от структуры до методологий
Рынок ПО сегодня — это сочетание облачных решений, on-premise-инфраструктуры и быстро растущих сегментов вроде ИИ и ИБ. Это делает его сложнее не только для анализа, но и для интерпретации.
На вебинаре разберут, как меняется структура рынка в России и мире, как распределяются роли между игроками и какие модели развития выглядят устойчивыми. Отдельный блок посвятят аналитике: почему отчёты дают разные цифры и как это связано с подходами к подсчёту.
📍 25 марта в 12:00 (МСК) — онлайн
Спикеры — представители Apple Hills Digital, iKS-Consulting, Yandex Cloud и JP Innovative.
Регистрируйтесь, чтобы получить целостное понимание рынка, а не набор разрозненных оценок
⚡️ Runway представила серьёзный прорыв в генерации видео с помощью ИИ на конференции NVIDIA GTC.
Компания показала новую модель, способную генерировать видео в высоком разрешении в настоящем реальном времени.
Ключевая фишка — time-to-first-frame менее 100 мс.
Это значит, что HD-видео начинает генерироваться и воспроизводиться практически мгновенно после команды.
Этот превью-ресёрч был разработан совместно с NVIDIA и работает на их новой архитектуре Vera Rubin.
Такая скорость — важный шаг к созданию General World Model (GWM-1) от Runway.
Технология выходит за рамки обычной генерации видео и движется в сторону живых, интерактивных сред в реальном времени.
https://x.com/runwayml/status/2034284298769985914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🌟 Xiaomi релизнула 3 модели: LLM, омнимодальную и TTS.
🟡MiMo-V2-Pro
Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha.
🟢Artificial Analysis Intelligence Index - 49 баллов, это 8 место в мире и 2 среди китайских LLM.
🟢PinchBench - 84,0 (3 место, сразу за Claude Sonnet 4.6).
🟢ClawEval - 61,5, тоже 3 место, выше GPT-5.2.
Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей).
Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М.
🟡 MiMo-V2-Omni
Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе.
🟢MM-BrowserComp - 52,0, на GPDVal AA - 1435, оба выше Gemini 3 Pro.
Цена: $0,40 вход / $2,00 выход.
На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ.
Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.
Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.
⚡️ Вышла новая модель Minimax M2.7 и релиз получился очень мощным.
Что интересного:
• 🧠 Self-evolving модель
M2.7 — одна из первых моделей, которая помогала улучшать саму себя.
Во время RL-обучения она запускала 100+ автономных циклов оптимизации, что дало около 30% внутреннего улучшения.
• 💻 Крутые результаты в кодинге
— 56.2% на SWE-Pro (почти уровень Claude Opus 4.6)
— 55.6% на VIBE-Pro
— может находить и исправлять production-баги менее чем за 3 минуты
• 🔬 Агент для ML-исследований
— 66.6% medal rate на MLE Bench Lite
— фактически на уровне Gemini 3.1 в задачах ML-исследований.
• 📊 Офисная и аналитическая работа
— ELO 1495 на GDPval-AA (лучший open-source результат)
— 97% точность выполнения задач
— может делать полный аналитический workflow:
анализ данных → отчёт → модель → презентация.
• 🤖 Нативная multi-agent архитектура
Модель изначально рассчитана на работу нескольких агентов вместе.
• 🎭 OpenRoom
Новый open-source демо-проект с интерактивными AI-персонажами, которые могут взаимодействовать друг с другом.
https://www.minimax.io/news/minimax-m27-en
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Alibaba выпустила open-source фреймворк, который похож на смесь OpenClaw и Claude Cowork 🤯
Что он умеет:
• долгосрочная память (long-term memory)
• может работать локально через Ollama
• поддерживает бесплатные модели, например Qwen 3.5
• self-hosting, система skills и многое другое
Ссылка:
https://github.com/agentscope-ai/CoPaw
🐍 Вышла новая модель из серии Mamba - Mamba-3.
Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей.
В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости.
В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая:
- Mamba-2
- Gated DeltaNet
Причём улучшения наблюдаются во всех размерах моделей.
Интересный факт:
это первая версия Mamba, созданная студентами.
Основные авторы проекта:
- Aakash Lahoti
- Kevin Li
- Berlin Chen
- Caitlin Weng
- Tri Dao
Что нового в Mamba-3:
1. Улучшенная дискретизация SSM
Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной.
Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях.
2. Комплексные переходы состояний
Переходы состояний теперь используют комплексные числа, что значительно улучшает способность модели отслеживать состояние.
Это решает проблемы предыдущих версий Mamba, которые, например, не могли решать даже некоторые простые задачи вроде bit parity.
3. Архитектура MIMO вместо SISO
Модель перешла от структуры SISO (single input single output) к MIMO (multiple input multiple output).
Это позволяет лучше использовать железо при inference, что даёт дополнительный прирост производительности.
Также архитектура была немного обновлена и стала ближе к современным языковым моделям.
Например, добавлены компоненты вроде BC / QK normalization.
Mamba-3 заметно усиливает линейные модели и делает их ещё более конкурентными с трансформерами, особенно в задачах языкового моделирования.
Paper: https://arxiv.org/abs/2603.15569
Code: https://github.com/state-spaces/mamba
Blog: https://goombalab.github.io/blog/2026/mamba3-part1/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🌟 Spatial-TTT.
Это фреймворк для потокового пространственного интеллекта на основе визуальных данных с использованием test-time training (TTT).
Spatial-TTT адаптирует «быстрые веса», чтобы захватывать и структурировать пространственную информацию из длинных видеопотоков. Это позволяет моделям со временем формировать структурированную 3D-пространственную память.
Основные идеи:
🔹 Эффективная потоковая память
Быстрые веса работают как компактная пространственная память.
Рост памяти сублинейный даже на видео длиннее 7000 кадров, при этом вычисления сокращаются более чем на 40%.
🔹 Пространственно-предиктивный механизм
Слои TTT с 3D пространственно-временной свёрткой улавливают геометрические соответствия и временную непрерывность.
🔹 SOTA-результаты
Модель показывает лучшие результаты на задачах долгосрочного пространственного понимания видео (VSI-Bench).
Работа заняла 1 место в рейтинге Daily Papers на Hugging Face 13 марта.
Проект: https://liuff19.github.io/Spatial-TTT/
GitHub: https://github.com/THU-SI/Spatial-TTT
Статья: https://huggingface.co/papers/2603.12255
Модели и данные: https://huggingface.co/THU-SI
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml