48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
⚡Когда аналитика разнесена по отдельным системам, бизнес долго ждет данные и платит за лишние кластеры, ETL и серверы.
🐘Postgres Pro AXE — аналитическая СУБД от Postgres Professional на знакомом PostgreSQL. Ускоряет доставку аналитики и снижает TCO на хранение и обработку данных.
✔️До 20 раз быстрее Greenplum
На сложных запросах в тестах ClickBench, TPC-H и TPC-DS.
✔️До 10 раз меньше ресурсов
При сопоставимой нагрузке с MPP-аналогами.
✔️Аналитика ближе к рабочим данным
Postgres Pro AXE работает как отдельная аналитическая СУБД или расширяет Postgres Pro Enterprise аналитическими возможностями на существующих узлах.
✔️Быстрый старт для команды
Знакомый PostgreSQL снижает порог входа для администраторов и разработчиков.
✔️Свобода хранения и BI
Локальный сервер, сетевая шара или S3. Данные — в формате Parquet.
🔗Приходите 28 мая на бесплатный вебинар: покажем, как построить аналитику без зоопарка технологий.
AI-индустрия научилась идеально генерировать не только текст, но и бессмысленные анонсы.
Каждую неделю нам продают "революцию": новый агент, новый benchmark, новый copilot, новый способ случайно слить данные в AI провайдера. Разобраться, где там реальная польза, а где очередной демо-ролик для инвесторов, становится отдельной работой.
В Похек AI как раз этим и занимаются: фильтруют AI-новости, разбирают обновления OpenAI/Anthropic/других вендоров, тестируют инструменты и пишут про AI security без религиозной веры в каждый новый релиз. Иначе ИИ-новости сейчас выглядят как: OpenAI что-то выкатил, Anthropic что-то улучшил, кто-то снова "убил программистов", а через неделю выясняется, что половина инфоповода была красивым пресс-релизом.
Из полезного для старта - пост Где легально ломать LLM: площадки и лабы, где можно практиковаться без сомнительных историй.
Если интересен AI не как хайп, а как поверхность атаки, инструмент защиты и новая боль для безопасников и разработчиков - канал стоит добавить в подписки)
🌟 Raindrop открыла исходный код локального отладчика агентов Workshop
Инструмент интегрируется с Claude Code, Cursor и другими кодинг-агентами.
Raindrop - стартап из 9 человек, основанный в 2023 году, который позиционирует себя одним из первых, кто оформил мониторинг для ИИ-агентов как отдельный продуктовый класс.
Цикл повторяется автоматически, пока не пройдут все проверки.
“We locked one HUNDER new CS grads in a room until they all find a job.” takes 5 years to film.
Читать полностью…
Куда катится архитектура LLM в 2026
Себастьян Рашка разобрал свежие open-weight модели - Gemma 4, Laguna XS.2, ZAYA1-8B и DeepSeek V4. Общий тренд один: теперь главная борьба идёт не только за качество, а за цену длинного контекста.
У reasoning-моделей и агентов узким местом стали KV-кэш, трафик памяти и FLOPs attention. Поэтому архитектуры всё активнее режут стоимость инференса.
Gemma 4 шарит KV между слоями. Laguna XS.2 распределяет attention-бюджет по слоям. ZAYA1-8B считает внимание в сжатом латентном пространстве. DeepSeek V4 сжимает KV вдоль последовательности и усложняет residual stream.
decoder-only трансформер жив, но всё вокруг attention быстро мутирует. Качество всё ещё тянут данные и training recipe, а архитектура всё чаще нужна, чтобы длинный контекст не сжигал железо.
https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures
👣 Я заставил LLM писать Rust полгода. Вот что они стабильно ломают
Полгода я использовал Claude, GPT и Cursor как основной инструмент для написания Rust-кода в проде. Не как «помощник для бойлерплейта», а как полноценного второго разработчика на монолите примерно в 80 тысяч строк (бэкенд обработки потоковых данных, tokio, sqlx, немного unsafe в hot path).
Доля сгенерированного кода в коммитах последних шести месяцев около 40%, остальное это правки, рефакторинг и места, куда модель я не пускаю.
За это время накопилась коллекция ошибок, которые модели делают с пугающей регулярностью, и которые проходят cargo build, проходят cargo test, иногда даже проходят cargo clippy, и при этом являются либо UB, либо логически некорректным кодом, либо тем самым «работает на моей машине».
Я не буду писать, какая модель лучше. К моменту публикации статьи рейтинг устареет. Я расскажу про категории ошибок, которые воспроизводятся у всех топовых моделей весной 2026 года, и которые упираются не в качество обучающих данных, а в фундаментальные слепые пятна архитектуры трансформеров применительно к системе типов Rust.
Цифры, которые буду приводить дальше, получены так: я завёл бенчмарк из 50 типовых задач (написать функцию, отрефакторить, добавить фичу), прогонял каждую через четыре модели в течение полугода, и руками классифицировал ошибки. Это не academic-level статистика, но порядки величин показывает.
🔜 Читать дальше
@rust_code
начальник в прошлом году / начальник сейчас
Читать полностью…
📌 H200 вроде разрешили. Но Китай их так и не получил
США дали добро примерно десяти китайским компаниям на покупку Nvidia H200. В списке Alibaba, Tencent, ByteDance, JD и другие.
Формально Вашингтон сделал шаг навстречу. По факту H200 остаются разменной монетой в переговорах с Пекином. Можно показывать прогресс, но не отдавать главное, пока Китай не уступит в других вопросах - от редкозёмов до торговли и Тайваня.
Хуанг в этой истории тоже не просто пассажир делегации. Глава Nvidia стал частью торга, потому что сейчас GPU - это уже не товар, а политический рычаг.
Но тормозить может и сам Китай. Пекин месяцами давит на свои компании, чтобы те переходили на Huawei Ascend и локальные кластеры. Массовая закупка H200 выглядела бы как откат назад: опять зависимость от американского железа, от которой Китай пытается уйти.
В итоге подвешенное состояние устраивает почти всех.
США могут сказать, что разрешили поставки. Китай может сказать, что не спешит покупать. Nvidia ждёт. Рынок гадает.
Пока поставок ноль, это не торговля. Это переговоры, замаскированные под сделку.
Вот кто реально отбил подписку на Claude
Claude помог восстановить доступ к криптокошельку с примерно 5 BTC. По текущим оценкам, это около $400 тысяч.
История почти киношная: парень потерял доступ к биткоин-кошельку больше 10 лет назад. На вечеринке поменял пароль, потом забыл его, а дальше начались годы безуспешных попыток вернуть деньги.
В итоге он подключил Claude.
Сначала модель помогла перебрать 3,5 триллиона вариантов пароля. Не сработало. Но на этом история не закончилась: дальше начались раскопки по старым файлам. В итоге нашли wallet.dat, сопоставили его с недавно обнаруженной seed-фразой и смогли восстановить доступ к кошельку.
На радостях владелец теперь обещает назвать ребёнка в честь основателя Anthropic.
Так, Claude, следующий таск: найти кошелёк Сатоши. Желательно без галлюцинаций.
https://x.com/Machinelearrn/status/2054673182842663094
⚡️ Anthropic вводит ежемесячный кредит для разработчиков
С 15 июня все платные тарифы Claude получат отдельный месячный кредит на программное использование.
Кредит покрывает:
• Claude Agent SDK
claude -p (CLI)
• Claude Code GitHub Actions
• Сторонние приложения на базе Agent SDK
И главное - автоматизация и агенты на Claude не будут «съедать» обычный лимит подписки - для них выделен свой бюджет.
https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
@ai_machinelearning_big_data
Ovis2.6-80B-A3B - ещё одна открытая VLM, которая метит в тяжёлую лигу
На ModelScope вышла Ovis2.6-80B-A3B: 80B параметров всего, но только 3B активных на инференсе. Лицензия - Apache 2.0.
Внутри:
- понимание документов
- OCR
- таблицы
- графики
- chart reasoning
- работа с длинным визуальным контекстом
Самая интересная фича - Think with Image.
Обычно VLM один раз «смотрит» на изображение и дальше рассуждает по уже полученному представлению. Ovis2.6 делает иначе: во время reasoning модель может активно кропать нужные области картинки, пересматривать детали и уточнять визуальные куски, а не тащить всё изображение как пассивный фон.
По характеристикам тоже неплохо:
- 80B total parameters
- 3B active parameters
- 64K context
- до 2880×2880 resolution
- Apache 2.0
- заявленная конкуренция с Qwen3-VL-32B, GPT-5-mini и Gemini 2.5 Pro на ряде vision-бенчмарков
Ovis2.6 выглядит именно как шаг в эту сторону: меньше пассивного vision, больше активного визуального reasoning.
🤖 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
💻 https://github.com/OpenBMB/MiniCPM-v
OpenAI уволила Леопольда Ашенбреннера. После этого он написал «Situational Awareness» - 165-страничный труд, в котором предсказал появление AGI к 2027 году.
А затем, по имеющимся данным, за 12 месяцев превратил $225 млн в $5,5 млрд.
И сделал он это не за счёт покупки акций Nvidia, Microsoft, Google или Amazon, а вложившись в то, на чём на самом деле работает ИИ, - в энергетику.
Гений)
Пока все обсуждают AI-агентов для офисов, «Норникель» и ИОНХ РАН делают куда более редкую вещь, обучают ИИ создавать новые материалы.
Суть проекта: десятки тысяч реальных экспериментов по неорганическим материалам превращают в dataset для AI-платформы цифрового материаловедения.
То есть, не просто анализировать свойства, а генерировать материалы под конкретную задачу: — электроника, — покрытия, — датчики, — микроэлектроника будущего.
Один из главных кейсов — попытка заменить золото палладием в электронных компонентах. Палладий дешевле, легче и лучше подходит для сверхтонких покрытий, которые нужны новой микроэлектронике.
По сути это движение к новой модели R&D: не сначала лаборатория, а потом результат, а сначала ИИ ищет перспективную структуру, потом ученые проверяют.
Карпатый: хватит читать ответы ИИ простынёй. Просите HTML
Андрей Карпатый поделился простым лайфхаком: в конце запроса к языковой модели добавляйте «оформи ответ как HTML», сохраняйте файл и открывайте в браузере.
Работает неожиданно хорошо.
Можно пойти дальше и попросить модель сразу упаковать ответ в слайды, мини-лендинг, интерактивную страницу или визуальную шпаргалку.
За этим советом стоит мысль глубже: аудио отлично подходит для ввода, но вывод от ИИ должен быть визуальным.
Текстовая простыня быстро утомляет. Markdown с заголовками, таблицами и списками уже стал нормой. Следующий шаг - HTML с нормальной вёрсткой, блоками, цветами, схемами и интерактивом.
А дальше, по прогнозу Карпатого, нас ждут ответы в формате интерактивных видео и симуляций, которые модель будет генерировать на лету.
С вводом тоже не всё идеально. Текста и голоса мало. Не хватает возможности просто ткнуть пальцем в экран, показать жестом, выделить область и сказать: «вот это поменяй».
Интерфейс человек - ИИ ещё очень сырой. До нейроинтерфейсов далеко, но один апгрейд доступен уже сейчас.
Просите не просто ответ.
Просите HTML.
Разница чувствуется сразу.
https://x.com/karpathy/status/2053872850101285137
Я, закидывающий всю кодовую базу в Claude, чтобы найти одну пропущенную точку с запятой.
Читать полностью…
Китайские кандзи теперь стали бенчмарком для VLLM
Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.
Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.
В датасете:
• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма
Почему это интересно?
Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.
Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.
Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
Microsoft вбухивает десятки миллиардов в ИИ, но Copilot пока не стал новым топ-продуктом
Бывший вице-президент Microsoft говорит неприятную вещь: компания рискует пропустить ИИ-волну так же, как когда-то не почувствовала интернет и мобильную эпоху.
На бумаге всё выглядит мощно. Microsoft тратит на ИИ гигантские суммы, встраивает Copilot в Windows, Office, Teams, GitHub и продаёт идею «ИИ в каждом рабочем процессе».
Но продукт не тянет сам себя.
По оценке экспертов, меньше 3,3% пользователей Microsoft 365 реально платят за Copilot. Производители ноутбуков массово добавили NPU в новые устройства, но в Windows и Office так и не появилось killer-приложения, ради которого обычный человек скажет: «Да, мне срочно нужен AI-PC».
Это очень болезненный урок для компании, которая десятилетиями выигрывала за счёт дистрибуции. Раньше достаточно было встроить продукт в Windows или Office, и рынок сам подтягивался. Сейчас так не работает. ИИ нельзя просто положить в меню «Пуск» и ждать магии. Пользователь должен почувствовать пользу сразу.
Бывший VP не списывает Microsoft со счетов. Наоборот, он говорит, что корпоративный ров компании почти невозможно пробить. У Microsoft есть Office, Azure, Active Directory, Teams, контракты, безопасность, доверие CIO и доступ к рабочим данным.
То есть обе мысли могут быть правдой одновременно: Microsoft пока не сделала Copilot продуктом, который люди массово хотят покупать. Но Microsoft всё ещё остаётся одной из немногих компаний, которые могут протащить ИИ в корпоративный мир на уровне инфраструктуры.
https://www.windowslatest.com/2026/05/17/former-microsoft-vp-says-microsoft-missed-the-ai-wave-like-the-internet-and-mobile-as-copilot-scales-back-in-windows-11/
Китай выигрывает в гонке ИИ не только опенсорс моделями.
Он выигрывает скоростью внедрения
FT пишет, что китайская аудитория заметно спокойнее и позитивнее относится к AI-продуктам, чем пользователи во многих других странах.
Когда люди не встречают каждый новый AI-сервис вопросом «а не заменит ли он меня завтра?», продуктам проще входить в повседневную жизнь. Банки, e-commerce, образование, доставка, госуслуги, корпоративные сервисы - всё это можно быстрее обкатывать на миллионах пользователей.
Параллельно меняется и центр тяжести в open source. Доля загрузок всё сильнее уходит от США и Европы в сторону Китая.
В итоге у Китая складывается редкая комбинация:
• пользователи готовы пробовать AI-продукты
• разработчики всё активнее идут в open source
• компании быстро встраивают модели в реальные сервисы
• рынок даёт огромный масштаб для тестов
• государство и бизнес двигают инфраструктуру в одну сторону
Что будет, если страна с миллиардным рынком, дешёвым внедрением и растущим open-source-комьюнити начнёт выкатывать AI-продукты быстрее всех остальных?
ft.com/content/d9af562c-1d37-41b7-9aa7-a838dce3f571
⚡️ Глава NVIDIA в обращении к студентам ит специальностей: ваш главный конкурент - электрик!
Дженсен Хуанг выступал перед выпускниками Carnegie Mellon и сказал довольно жёсткую вещь: в ближайшие годы огромный шанс будет не только у программистов, а у электриков, сантехников, сварщиков, техников и строителей.
И звучит это уже не как
ИИ нужны дата-центры, электричество, охлаждение, кабели, трубы, бетон, стойки, обслуживание и люди, которые всё это физически построят.
Пока одни спорят, кого заменят нейросети, спрос на рабочие специальности летит вверх:
• робототехники - плюс 107%
• HVAC-инженеры - плюс 67%
• специалисты по промышленной автоматизации - плюс 51%
• традиционные рабочие профессии - плюс 27% за последние годы
Парадокс эпохи ИИ в том, что победителем может оказаться не prompt engineer, а человек, который умеет подключить 100-мегаваттный дата-центр где-нибудь в пустыне Невады.
Код можно сгенерировать.
А вот кабель сам себя не протянет.
https://consent.yahoo.com/v2/collectConsent?sessionId=3_cc-session_096f2d7d-f863-4ee4-8fc8-af10b78de394
Трамп садясь в самолет отдал приказ: всё китайское - в мусорку, ничего не заносить на Air Force One
Перед самой посадкой на борт американские сотрудники собрали всё, что китайская сторона раздала делегации: пресс-бейджи, burner phones и значки делегации. После этого всё выбросили в мусорку.
Журналист Daily Mail, сопровождавший Белый дом, видел это лично: «Ничего китайского на борт не занесли».
Китай сильнейшая держава в мире по кибершпионажу, и даже в обычный значок теоретически может быть встроено устройство для прослушки.
Рукопожатия есть. Доверия - ноль. Вот реальность отношений США и Китая.
https://x.com/Machinelearrn/status/2055264980925305005
Узнайте, какие локальные модели потянет ваш ПК
Полезный сервис для тех, кто запускает LLM локально и не хочет гадать, какая модель влезет в железо без боли.
Как работает:
- указываете GPU, VRAM и RAM
- получаете список моделей, которые нормально запустятся на вашем ПК
- видите квантование, примерную скорость и контекстное окно
- поддерживается железо NVIDIA, AMD, Intel и Apple
Особенно удобно, если собираете ИИ-агентов, тестируете локальные модели или выбираете железо под inference.
Больше не нужно вручную считать память и перебирать модели наугад.
https://whatmodelscanirun.com/
Пацаны, ещё есть время переучиться
Читать полностью…
⚡️ Вышел PyTorch 2.12,
Что завезли:
- batched linalg.eigh на CUDA теперь может работать до 100x быстрее
- появился новый torch.accelerator.Graph для graph capture и replay на разных ускорителях
- torch.export.save получил поддержку Microscaling quantization
- Adagrad теперь умеет fused=True
- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен torch.accelerator.Graph. Это шаг к более нормальной абстракции над CUDA, XPU и внешними backend-ами, чтобы код меньше зависел от конкретного ускорителя.
А ускорение linalg.eigh до 100x - хороший пример того, как одна внутренняя замена backend-логики может превратить минуты ожидания в секунды.
pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure
⚡️ В Claude Code завезли сразу две клевые фичи
Первая - Agent View. Теперь все сессии можно видеть в одном окне: что запущено, что ждёт твоего действия, что уже завершилось. Можно параллельно гонять несколько агентов и не превращать терминал в кладбище вкладок.
Вторая - непрерывный режим /goal. Задаёшь цель, и модель работает до результата без постоянных остановок и подтверждений на каждом шаге.
Claude Code всё больше превращается не в «чатик в терминале», а в нормальную панель управления агентами.
⚡️ Portable-AI-USB.
Идея простая, но элегичная: берёшь флешку, ставишь туда Ollama, AnythingLLM и локальную модель, после чего получаешь карманного AI-ассистента без облака, логина и постоянного интернета.
Что внутри:
- запуск с USB на Windows и Mac
- Ollama как локальный движок для моделей
- AnythingLLM как удобный интерфейс
- готовые модели на выбор
- поддержка .gguf-моделей
- чаты и настройки хранятся на накопителе
- после загрузки модели можно работать офлайн
Конечно, чудес ждать не надо. Скорость зависит от железа, большие модели требуют места и памяти.
GitHub: https://github.com/techjarves/Portable-AI-USB
Илья Суцкевер заявил во время судебных показаний, что его личная доля в компании-разработчике ChatGPT оценивается примерно в $7 млрд.
Это стало известно во время перекрёстного допроса со стороны юридической команды Илона Маска в громком федеральном процессе в Окленде между Маском и OpenAI.
Помимо цифр по доле, показания Суцкевера пролили свет на старые внутренние конфликты за власть.
Он подтвердил под присягой, что до своего ухода и кратковременного отстранения CEO Сэма Альтмана в конце 2023 года считал поведение Альтмана раскалывающим команду, ненадёжным и вредящим главной цели - разработке безопасного искусственного общего интеллекта, AGI.
#openai
Anthropic, похоже, стала самым быстрым software-бизнесом в истории
По reported revenue run rate компания уже обогнала OpenAI и вышла примерно на $45B ARR.
Для масштаба: Salesforce за FY2025 сделал около $38B.
У Anthropic траектория выглядит дико:
- ~$10M ARR в конце 2022
- ~$1B ARR к январю 2025
- ~$14B ARR в начале 2026
- ~$45B ARR к маю 2026
Менее чем за год он, по сообщениям, вышел на ~$2.5B run rate. Число enterprise-клиентов с чеком $1M+ в год выросло примерно с 500 до 1000 всего за пару месяцев. Больше 80% выручки Anthropic теперь идёт из enterprise.
Пока одни гнались за consumer-хайпом, Anthropic пошла туда, где есть бюджеты: кодовые базы, команды разработки, внутренние процессы и задачи, которые бизнес не может просто выключить.
Вот и весь monetization gap.
Меньше массовой аудитории, зато намного выше spend per customer.
Да, compute будет жрать безумные деньги. Но если выручка растёт такими темпами, старая SaaS-математика начинает трещать.
И если эта траектория удержится, главными победителями будут не приложения, а те, кто контролирует AI-слой, на котором они работают.
Сейчас этот слой всё чаще выглядит как ClaudeOS.
Thinking Machines показали модель, где realtime встроен внутрь, а не прикручен костылями
Thinking Machines выкатили research preview interaction models - моделей, у которых интерактивность не собрана снаружи через VAD, ASR, TTS и агентный harness, а является нативным свойством самой модели.
Это важнее, чем звучит.
Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой.
Thinking Machines пытаются сломать именно эту схему.
Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью контекста, а не проблемой для внешней обвязки.
Архитектура тоже интересная. Аудио подается как dMel через легкий embedding, изображения режутся на патчи 40x40 и идут в hMLP, аудио на выходе декодируется flow-головой, а всё это тренируется вместе с трансформером. Без тяжелых отдельных энкодеров и без классической схемы «распознал речь - отправил текст - синтезировал ответ».
Еще одна сильная идея - асинхронный background-агент. Когда нужны долгие рассуждения или инструменты, основная модель делегирует ему полный контекст, но сама не замирает и продолжает разговор. Когда результат готов, она вплетает его обратно в диалог.
По сути они разделяют две вещи:
- отвечать быстро, как realtime non-thinking модель
- думать глубоко, как reasoning-модель
- не заставлять пользователя ждать, пока вся цепочка рассуждений закончится
Инженерно там тоже много мяса. Чанки по 200 мс ломают привычные инференс-серверы, потому что постоянные prefill-запросы быстро становятся узким местом. Поэтому они сделали streaming sessions: клиент отправляет каждый чанк отдельным запросом, а сервер держит постоянную последовательность в GPU-памяти и просто дописывает в нее новые данные. Эту фичу уже заапстримили в SGLang.
Для стабильности тренировки они добились побитового совпадения trainer и sampler через batch-invariant ядра с оверхедом меньше 5%. В том числе использовали NVLS-коммуникационные ядра на Blackwell и согласованный split-KV между prefill и decode.
Сама модель называется TML-Interaction-Small. Это 276B MoE с 12B активных параметров.
По заявленным результатам:
- на FD-bench модель держит SOTA по интерактивности
- на Audio MultiChallenge обгоняет все non-thinking realtime-модели
- подбирается к thinking-режимам GPT-realtime-2 и Gemini-3.1-flash-live
- на новых задачах вроде TimeSpeak, CueSpeak, RepCount-A, ProactiveVideoQA и Charades показывает способности, которых у обычных realtime-API почти нет
Самое важное тут не бенчмарки, а сдвиг в продуктовой логике.
Если такой подход масштабируется, огромный класс AI-продуктов перестанет нуждаться во внешнем оркестраторе. Живой перевод, тьюторы по произношению, ассистент, который комментирует код прямо во время набора, подсчет повторений на тренировке, навигация для незрячих - всё это сейчас собирается на костылях с заметным лагом.
А здесь интерактивность становится свойством самой модели.
Ограничения тоже честные: длинные сессии быстро забивают контекст, нужен стабильный канал, а текущий чекпойнт еще не самый крупный. Большие модели у них пока слишком медленные для realtime.
Но направление выглядит очень сильным. Это уже не «ChatGPT с голосом». Это попытка сделать ИИ, который не просто отвечает после тебя, а реально присутствует в моменте.
https://thinkingmachines.ai/blog/interaction-models/
@data_analysis_ml
Gemini жгет😳
В X появился первый ролик, который приписывают новой видео-моделью Gemini Omni, и там главный шок в тексте.
Надписи в видео выглядят потрясающе. Без каши из букв, без случайных символов, без ощущения, что модель просто угадывает форму текста.
https://gemini.google.com/share/7d5dc678c80a
@data_analysis_ml