Telegram-канал tsingular - Технозаметки Малышева: Unsorted - каталог телеграмм

tsingular | Unsorted

Subscribe to a channel

Telegram-канал tsingular - Технозаметки Малышева

2604

Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb

Subscribe to a channel

Технозаметки Малышева

01 October 2025 07:56

FuzzForge AI: платформа для автоматизации поиска уязвимостей

Интересная платформа с ИБ инструментами.

🤖 AI Agents for Security — специализированные агенты для AppSec, реверсинга и фаззинга

🛠 Автоматизация рабочих процессов — определение и выполнение рабочих процессов AppSec в виде кода

📈 Масштабируемое исследование уязвимостей - автоматизированная перепроверка уязвимостей 1-day и обнаружение уязвимостей 0-day

🔗 Интеграция с фаззерами — AFL, Honggfuzz, AFLnet, StateAFL и другие

🌐 Маркетплейс сообщества - обмен рабочими процессами, корпусами, PoC и модулями

🔒 Корпоративная версия - облачные решения для команд/корпораций для масштабирования активной безопасности

Полезный фреймворк для внутренней команды по пентестам.

#FuzzForge #Fuzzing #AppSec #cybersecurity
———
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 19:40

🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

Читать полностью…

Технозаметки Малышева

30 September 2025 19:19

TLDR с сайта:
— все утечки подтвердились, будет отдельное приложение / социальная сеть с лентой рекомендаций
— можно «загрузить» свой образ для использования вами и друзьями, и использовать чужие образы. Это главная фича, за счёт которой достигается интерес и социализация
— также есть система приглашений, можно позвать 4 людей с собой
— сейчас есть приложение только для iOS (ссылка), доступно сначала в США и Канаде, но обещают быстро добавлять новые страны
— доступно БЕСПЛАТНО с щедрыми лимитами (сколько точно не уточняется, но вот у Codex Cloud, где тоже написано «щедрые лимиты», я ни разу в них не упирался вообще)
— Pro-пользователи получают доступ к веб-версии на сайте sora.com , плюс, у них есть отдельная модель Sora 2 Pro, пока не вижу сравнений по качеству
— для подростков время скролла ленты ограничено по умолчанию, чтобы дети не зависали в приложении навсегда
— в модели сделали существенный упор на реалистичность физики (см. приложенные видео)
— API запустится скоро
— отмечаем похороны Snapchat 😀

Читать полностью…

Технозаметки Малышева

30 September 2025 18:15

По следам конферениции, как обещал делюсь презентацией.

ИИ для бизнеса

#презентация #Сколково
———
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 12:33

- то, что Россия в клубе разработчиков фундаментальных ИИ моделей,- круто!

- возможно в какой-то момент разработку регламентов работы ИИ придётся поручить ИИ.

- я тоже использую модели ИИ.

- ИИ пока не способен предсказывать политические события.люди справляются лучше.

- мы должны как страна в области ИИ достичь больших успехов.

- пока мы способны контролировать ИИ, но только пока.

#aiday #Сколково #Медведев
------
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 08:43

Сегодня в Сколково День ИИ.

https://aiday.sk.ru/

Если кто тут - пишите

#Сколково
------
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 21:39

На троих с Соннет 4.5 и Суно 5 получилась Киберосень.

Опыт в итоге следующий:
Суно лучше всего пишет именно структуру песни.
Т.е. прям в ней нужно генерить.
Она делает правильную структуру заготовки.
Дальше отдаем в Соннет с задачей - тут все плохо, вот цель - переделай.
Получается исправленная рифма и более качественная структура текста.
Дальше ручками правим стих.
Финалим.

Возвращаемся в Суно - 20 генераций спустя понимаем нужную комбинацию описания инструментов и исполнителей, убираем опечатки и расставляем ударения.

В следующем году, видимо, все эти лишние движения будут уже не нужны.
О том и песня.

#Киберосень #музыка #Suno
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 19:15

🚀 Claude Sonnet 4.5 — новая планка в AI-разработке

Anthropic выпустила самую сильную модель в мире.

Ключевые показатели:
#1 в SWE-bench Verified — бенчмарке реальных задач программирования
61.4% на OSWorld (тесты работы с компьютером) vs 42.2% у Sonnet 4 четыре месяца назад

Удерживает фокус в 30+ часов на многошаговых задачах

Прорыв в reasoning и математике по всем основным бенчмаркам

Вместе с моделью обновились:
Claude Code: checkpoints для отката к предыдущим состояниям, обновлённый терминал, нативное расширение для VS Code

Claude API: context editing и memory tool для долгих агентных сессий

Claude Apps: code execution и создание файлов (таблицы, презентации, документы) прямо в чате

Claude Agent SDK — инфраструктура, на которой построен Claude Code, теперь доступна всем разработчикам

Alignment-прорыв:
Это не просто мощная, но и самая выверенная ведущая-модель от Anthropic.
Существенно снижены: sycophancy, deception, power-seeking, поддержка деструктивного мышления.
Улучшена защита от prompt injection атак.

Бонус: "Imagine with Claude"
Временный исследовательский режим (5 дней для Max-подписчиков) — Claude генерирует софт в реальном времени, без предзаписанного кода. Чистая демонстрация возможностей.

Цена осталась прежней: $3/$15 за миллион токенов.
Model string для API: claude-sonnet-4-5-20250929

Anthropic превращает AI-ассистента в AI-коллегу, который может взять на себя задачи на часы и даже дни работы. Осталось только научиться правильно ставить задачи. 😏

Вот теперь можно и вайб-воркать :)

#Claude #Anthropic #Sonnet
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 18:17

Новая экспериментальная модель DeepSeek-V3.2-Exp

DeepSeek выпустила V3.2-Exp - экспериментальную версию своей флагманской модели.

Основные улучшения коснулись качества рассуждений и следования инструкциям. Модель доступна через API и на Hugging Face.

Но главное, - цена -50% по API
$0.42 или 35рублей за 1млн токенов генерации. (на вход - $0.28 без кэша и $0.028 за млн, если попали в кэш)
при том что это 670B модель с 85 MMLU-Pro и 19.8 HLE!

HuggingFace

#DeepSeek #Experimental
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 13:16

ахаха, у меня будет своя GPT5
изи катка

результат в комментарии.
Проверяйте :)

#юмор
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 07:00

Abacus.ai: новый игрок на ИИ районе

Не попадался раньше под руку, а проект, тем не менее, интересный:

Основание и команда
Год основания: 2019. Создана как RealityEngines.AI, а в 2020 переименовалась в Abacus.AI.

Сооснователи:
- Bindu Reddy — CEO; ранее возглавляла AI Verticals в AWS (Amazon Personalize/Forecast), до этого — руководитель продуктов Google Docs/Sheets/Slides/Sites/Blogger.
- Arvind Sundararajan — CTO; ранее технический лидер в Uber ATG, до этого - Google (AdSense/ Gmail backend).
- Siddartha (Siddartha/Siddartha) Naidu — VP ML & Research; со-основатель Google BigQuery, ранее Google/Amazon.

HQ: Сан-Франциско.

Не путать с другим стартапом Abacus AI Inc. (CPA-ассистенты для бухгалтерии), который в июле 2025 поднимал seed $6.6M. Это разные компании.

Abacus.AI позиционирует себя как «AI-мозг» для организации и «AI супер-ассистент» с агентными возможностями.

Так вот, чем интересны, - линейка решений:
- чат с разными ИИ на выбор,- тут стандартно
- DeepAgent / DeepAgent Desktop - аналог Курсора с CLI
- ИИ Operator - управление компом
- Abacus.AI Enterprise (GenAI-платформа) — корпоративная платформа: AI-Workflows, RAG/Vector Stores, цепочки подсказок (CoT/prompt chains), коннекторы к данным, real-time фичи и др.
- Structured ML / Vision AI / Optimization — end-to-end платформа для табличных моделей (персонализация, прогнозирование, отток/антифрод и пр.), компьютерного зрения и т.д.
- файн-тюн моделей

В общем настоящий швейцарский нож для организации ИИ сервисов.
Говорят достаточно популярный в Штатах. У нас не слышал.
Полезно так же посмотреть с точки зрения организации собственных внутренних сервисов.

#Abacus #AIplatform
———
@tsingular

Читать полностью…

Технозаметки Малышева

28 September 2025 17:21

🔬 Квантовые кубиты прошли тест реального производства: 99%+ точность при массовом промышленном производстве

Diraq (стартап UNSW) совместно с imec показали, что кремниевые спиновые кубиты сохраняют лабораторное качество при массовом производстве на 300-мм пластинах.

Технический прорыв:
- Четыре двухкубитных устройства показали точность операций выше 99%
- State preparation и measurement достигли 99.9% — рекорд для промышленно изготовленных кубитов
- Использованы стандартные CMOS-процессы без модификации базового оборудования
- Gate set tomography подтвердила воспроизводимость результатов между устройствами

Почему это важно:
Основная проблема квантовых вычислений, - масштабирование. Большинство кубитов работают только в лабораториях. Diraq доказали, что можно использовать триллионную полупроводниковую индустрию напрямую.

Техническая начинка:
- Изотопически очищенный кремний (400 ppm ²⁹Si)
- Операции при 10 мК с временем жизни до T₁ = 9.5 секунд
- Контроль через обменное взаимодействие с точностью до наносекунд
- Real-time feedback для коррекции Larmor-частоты
- Cryo-CMOS driver chip (совместно с Emergence Quantum)

Коммерческий трек:
- $137M+ общего финансирования (включая недавние $15M от ICM Global, Morgan Creek)
- Первый продукт к 2029, fault-tolerant система к 2033
- Экспансия: Silicon Valley, Бостон, скоро Illinois Quantum Park (Чикаго)
- Контракты с DARPA ($1M Quantum Benchmarking Initiative) и Fermilab

Следующий этап:
Дальнейшая изотопная очистка до <50 ppm уже продемонстрирована в академических прототипах — это путь к 99.9% точности всех операций (порог fault-tolerance).

Практическое значение:
Стартапам больше не нужно строить собственные fab — можно заказывать кубиты как обычные чипы. Это кардинально меняет экономику квантовых вычислений.

Квантовые компьютеры промышленного масштаба требуют миллионы кубитов. Теперь есть технологический путь их производства.

В 2024 году квантовые стартапы привлекли около $2 млрд инвестиций.

Гартнер прогнозирует массовое внедрение квантовых вычислений к 2029 году.

Так что пока дожигаем GPU, но после 2030, - ИИ на квантовых чипах станут нормой.

#Diraq #Quantinuum #кванты
———
@tsigular

Читать полностью…

Технозаметки Малышева

28 September 2025 14:45

Prompt Packs от OpenAI Academy

OpenAI выпустила Prompt Packs - готовые наборы промптов для различных сценариев.

Полезно не только для обучения,- разные промпты в одинаковых задачах могут давать разницу результатов от 8.8% до 62.9% на одинаковой модели.

Парсим, загоняем в RAG по задачам,- профит :)

Ну или просто учимся сами.

#PromptPacks #OpenAI #промпты #обучение
------
@tsingular

Читать полностью…

Технозаметки Малышева

27 September 2025 12:07

Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах

Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +

Читать полностью…

Технозаметки Малышева

27 September 2025 07:39

Вьетнам делает ИИ основой экономики

На NVIDIA AI Day в Хошимине заместитель директора Национального центра инноваций Вьетнама заявил о планах поставить искусственный интеллект в центр экономической стратегии.

Вьетнам уже показывает серьезную динамику: 39% рост внедрения ИИ год к году, 18% компаний используют технологии.

К 2040 году ИИ может добавить 120-130 миллиардов долларов к экономике страны. Страна развивает проект ViGen - крупнейшую базу данных на вьетнамском языке для обучения ИИ.

Интересно, что параллельно идут переговоры с NVIDIA о создании суверенного ИИ, учитывая американские ограничения на экспорт чипов.

Все метят в чемпионы, но хватит ли на всех GPU?!

#Vietnam #NVIDIA #SovereignAI
------
@tsingular

Читать полностью…

Технозаметки Малышева

01 October 2025 07:27

NVIDIA выпустила открытый физический движок Newton для роботов

NVIDIA запустила Newton Physics Engine - открытый движок для симуляции физического мира для роботов, разработанный совместно с Google DeepMind и Disney Research. Основан на NVIDIA Warp и работает как на GPU так и на CPU.

Движок интегрирован в Isaac Lab и позволяет симулировать сложные движения роботов - ходьбу по снегу, гравию, манипуляции с объектами.

Вместе с Newton выходит Isaac GR00T N1.6 - модель для роботов с интеграцией Cosmos Reason для пошагового планирования действий с учётом физики мира.
Превращает расплывчатые инструкции в пошаговый план через "здравый смысл" и знание физики

Cosmos WFMs - генерация синтетических данных для обучения:
Predict 2.5: видео до 30 сек, мультикамерный вывод
Transfer 2.5: в 3.5x компактнее, фотореалистичная синтетика из 3D-сцен

Тут кстати уместно вспомнить про избыточность.
Когда роботы локально смогут быстро генерить хотя бы 30 секундные физически достоверные симуляции будущего, - мы получим то самое "воображение", которое сделает их действия безошибочными.
Нужны мощные маленькие мини-пк, как, например, NVidia Thor.

#Newton #Robotics #NVIDIA
———
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 19:23

В 2025м сдалась музыка, к новому году рилсы
в 2026м фильмы.
в 2027м сериалы.
в 2028м стримы.
#future
———
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 18:30

Через пол часа покажут новую версию Sora

Смотрим тут

#Sora #OpenAI
———
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 16:40

OpenAI запускает покупки прямо в ChatGPT через Instant Checkout

ChatGPT теперь позволяет покупать товары без выхода из чата.

Пользователи в США могут покупать у продавцов Etsy, скоро подключатся миллион магазинов Shopify включая Glossier, SKIMS, Spanx.

Основа системы — Agentic Commerce Protocol, разработанный с Stripe. Протокол открытый, что позволяет другим разработчикам создавать интеграции.

Ранжирование товаров остается органическим, но среди одинаковых продуктов учитывается поддержка Instant Checkout.

Данные пользователей передаются минимально, только для завершения заказа. Платежи проходят через существующие системы продавцов.

Комиссия с продавцов составляет около 2% против 15% у Amazon плюс затраты на рекламу.

Теперь ИИ не только найдет товар, но и купит его за вас.

Интересно когда GigaChat к Сбермаркету прикрутят?
Засекаем :) время пошло.

#ChatGPT #Stripe #Commerce
------
@tsingular

Читать полностью…

Технозаметки Малышева

30 September 2025 11:19

Aiday - открытая панельная дискуссиия началась.

Смотреть на сайте.
http://aiday.sk.ru/

#сколково #aiday
------
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 22:35

Эпоха вайбкодинга прекрасна.
Нашел какие-то формулы в Х

a=(y,d=mag(k=(y<11?6+sin(y^8)*6:y/5+cos(y/2))*cos(i-t/4),e=y/7-13)+sin(e/4+t)/2)=>point((q=y*k/d*(3+sin(d*2+y/2-t*4)))+60*cos(c=d/2+1-t/2)+200,q*sin(c)+d*29-170)
t=0,draw=$=>{t||createCanvas(w=400,w);background(9).stroke(w,96);for(t+=PI/120,i=1e4;i--;)a(i/345)}

Sonnet их тут же оживил

Код в комментарии

#Sonnet #vibecoding #squid
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 19:30

Ну что ж. Давно мы не проверяли модели сонетами.

Погнали наш любимый тест.

Промпт (немного разнообразим на этот раз):

напиши венок сонетов об осени. 
сюжет - как уходит лето, так сонет за сонетом люди уступают искусственному интеллекту и роботам. В этот новый год придет AGI и никто не знает, - будет ли он добрым Сантой или Крампусом

Результат хорош, но не идеален. (в комментарии венок целиком -14+1 сонет)

Не AGI пока.

#Сонет #бенч #Sonnet
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 18:22

Спасибо что помыли у нас ваш четырёхколёсный брат.

С вас $60К. пасибапажалуйста.

#Unitree #robots #мойка #Китай
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 14:47

Вайб-сингулярность.

Когда каждый может навайбкодить себе AGI

#мысли #AGI
———
@tsingular

Читать полностью…

Технозаметки Малышева

29 September 2025 10:51

Экспонента всё еще с нами в этой комнате

Интересный пост Джулиана Шриттвизера (AlphaGo/Zero, MuZero, AlphaCode, AlphaTensor, AlphaProof; экс-DeepMind, сейчас Anthropic) о том, почему мы снова «не видим» экспоненту и почему окно 2026–2027 выглядит как время для прихода AGI.

Ключ по сути:
1) METR: длина автономной работы растёт экспоненциально.
Метрика «горизонт 50%» (сколько времени модель тянет задачу с ~50% успеха) удваивается ≈ каждые 7 мес. Уже есть 2+ часа на лучших моделях; по прямой экстраполяции к середине 2026 — полноценный 8-часовой рабочий день.

2) GDPval: экономические задачи, а не просто «олимпиада по промптам».
44 профессии, 1 320 задач, слепая оценка артефактов. GPT-5 уже близок к среднему человеку, Claude Opus 4.1 местами выше. Тренд подразумевает: к концу 2026 хотя бы одна модель дотянется до уровня отраслевых экспертов во многих доменах; к 2027 - будет уверенно превосходить человека на значительной доле задач.

3) Почему многие «не ощущают» прогресс.
Субъективно «GPT-4o ≈ GPT-5», но эффект накапливается в невидимых нам циклах (длинные/многошаговые, инструментальные, автономные). Экспонента интуитивно нечитаема: долго кажется «плоской», затем наступает резкий (с точки зрения восприятия человека) поворот. (Задача-притча о лилиях: в пруду растут лилии. Каждый день их количество увеличивается в два раза. Если для того, чтобы они полностью заполнили озеро требуется 48 дней, то сколько дней нужно, чтобы они покрыли половину озера?)

4) Ограничения и реалистичные поправки.
METR честно отмечает низкую «сложность» задач (бенчи отражают далеко не весь реальный бардак, который люди встречают в реальной работе). Плюс закон Гудхарта: под бенчмарки можно переобучиться. Вывод — смотреть на тренды, но валидировать на своих реалистичных пайпах.

Что делать компаниям уже сейчас:

Измеряйте «длительность задач», а не только баллы.
Возможный KPI: сколько минут/часов тянет ваш агент на прод-данных и инструментах.

Запускайте реалистичные-эвалы. Многошаговые, с неопределённостью, правками, регуляторкой.

Стройте системы «человек + флот агентов», а не замену людей. Ассистенты-исследователи, проверяющие смежных агентов, регуляторные навигаторы, калькуляторы по бизнес-моделям.

Не возводите SOTA-таблицы в абсолют. Смотрите на TTV/ROI и операционные метрики на ваших реальных задачах.

Готовьте процессы и контроль. Аудит, трассируемость, политика данных, безопасность.
Свой личный золотой бенч.

Вывод: экспонента держится.
На горизонте 12–24 месяцев базовый прогноз по-прежнему выглядит как прямая на лог-графике.
Победят те, кто уже сегодня меряет автономный горизонт на «грязных» задачах и выстраивает операционку под «человек + агенты».

#аналитика #Schrittwieser #AGI
———
@tsingular

Читать полностью…

Технозаметки Малышева

28 September 2025 21:37

🤖 Unitree - троянский конь: роботы как новый вектор кибератак

Исследователи Alias Robotics провели комплексный аудит безопасности гуманоидного робота Unitree G1.

Критические уязвимости:
- BLE-протокол позволяет удаленный взлом через Wi-Fi конфигурацию
- Захардкоженые AES-ключи (df98b715d5c6ed2b25817b6f2554124a) одинаковы для всех типов G1/H1/R1
- Root-доступ через инъекцию команд в SSID: ;$(cmd);#
- Шифрование FMX частично скомпрометировано (Blowfish-ECB + LCG)

Постоянная слежка:
Робот каждые 5 минут передает телеметрию на серверы в Китае (43.175.228.18:17883):
- Аудио с микрофонов без индикаторов записи
- Видео 1920×1080@15fps с RealSense камер
- 3D-карты помещений собранные через LIDAR
- Полное состояние системы и сенсоров

Двойная угроза:
- Пассивная разведка — робот как шпионский узел в корпоративной сети
- Активные кибератаки — платформа для Cybersecurity AI агентов
- Потенциальная возможность удалённого управления роботом через уязвимости или скрытые закладки

Практические риски:
- Корпорации: утечка переговоров, документов, планировок офисов
- Критическая инфраструктура: возможность скрытого сбора информации в изолированных сетях
- Регуляторные нарушения: GDPR 6&13, CCPA нарушения

Unitree G1 показывает самую продвинутую систему безопасности в коммерческой робототехнике, но фундаментальные ошибки делают её бесполезной.

Вывод: гуманоидные роботы в первую очередь должны рассматриваться как источник кибер-физических угроз.

#Robotics #Unitree #cybersecurity #роботы
———
@tsingular

Читать полностью…

Технозаметки Малышева

28 September 2025 16:50

Cursor запустил свою платформу для обучения.

Пока база, - про модели, галлюцинации, токены, контекст, инструменты и агентов.

Дальше в планах, - размышления, планирование, создание и работа с агентами, отладка и безопасность.

Осталось еще хостинг моделей и MCP хаб добавить и будет классический современный набор.

#Cursor #обучение
———
@tsingular

Читать полностью…

Технозаметки Малышева

28 September 2025 14:02

Perplexity запустил Search API для разработчиков

Perplexity открыл доступ к своей поисковой инфраструктуре через API. Разработчики получили ту же глобальную базу из сотен миллиардов веб-страниц, что использует сам сервис.

Основные фишки:
- поиск на уровне фрагментов документов, а не целых страниц
- обновление индекса десятками тысяч запросов в секунду
- структурированные ответы, готовые для ИИ-приложений
- открытый фреймворк для тестирования search_evals

Компания утверждает, что обходит конкурентов по качеству и скорости при меньших затратах. API стартует от $5 в месяц.

Поисковые войны переходят в новую фазу - теперь каждый сможет встроить конкурента Google в свое приложение.

#Perplexity #Search #API
———
@tsingular

Читать полностью…

Технозаметки Малышева

27 September 2025 07:55

Gemini Robotics 1.5 выводит ИИ-агентов в физический мир

Google DeepMind запустили Gemini Robotics 1.5 - платформу для создания роботов с возможностями детальных рассуждений и агентским функционалом.

Самое главное, - агентное поведение.

Роботы теперь могут решать сложные многоэтапные задачи, планировать действия и адаптироваться к новым ситуациям.

Платформа поддерживает перенос навыков между разными роботами. Научили одного - остальные тоже умеют.

В комплекте SDK для разработчиков, который позволяет настраивать поведение под конкретные задачи.

Ну что, как и было предсказано, - 2025й год воплощённого ИИ.
Мультиагенты уже загружаются в гуманоидов.

Хорошая новость, - это все opensource, - можно настроить под себя.

#Gemini #роботы #DeepMind
———
@tsingular

Читать полностью…

Технозаметки Малышева

27 September 2025 07:27

🤖 Google запускает 5-дневный интенсив по ИИ-агентам

После успеха GenAI курса (420К+ участников) Google поднимает планку и теперь выпускает курс только по агентам. От архитектур до продакшена за 5 дней.

Программа:
День 1: Агентные архитектуры vs традиционные LLM приложения
День 2: MCP (Model Context Protocol) — стандарт для взаимодействия с инструментами
День 3: Контекст-инжиниринг — кратко/долгосрочная память для мультитурновых задач
День 4: Observability, логирование, метрики — как строить надёжные системы
День 5: Agent2Agent (A2A) Protocol — мульти-агентные системы в продакшене

Формат обучения:
📚 Ежедневные задания (1-2 часа) — whitepapers + codelabs + подкасты от NotebookLM
💬 Discord канал для обсуждений с экспертами Google
🎥 Лайвстримы 45-60 мин с авторами курса + AMA сессии
🏆 Capstone проект на ADK (Agent Development Kit) — реальное портфолио + призы

Требования:
Python + базовые AI концепты + Google AI Studio (доступен в ограниченных регионах) + Kaggle аккаунт с верифицированным телефоном.

Бесплатно, записи будут доступны после курса. Топ-10 capstone проектов получат swag + продвижение в соцсетях Google.

Записываемся. За 5 дней влетаем в агентостроение.

#Google #Kaggle #обучение
———
@tsingular

Читать полностью…

Subscribe to a channel