tsingular | Unsorted

Telegram-канал tsingular - Технозаметки Малышева

2604

Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb

Subscribe to a channel

Технозаметки Малышева

Telegram Managed Bots: один движок для тысячи ботов

Telegram запустил Managed Bots — боты теперь могут создавать и управлять другими ботами. Суть: один ManagerBot работает как единый AI-движок, а все порождённые им боты, - субагенты. Дочерний бот не имеет собственного бэкенда. ManagerBot получает его токен через getManagedBotToken и по-сути создаёт коммуникационный канал для субагента у себя и отвечает от его имени.

🤖 Как работает: В BotFather нужно включить Bot Management Mode. ManagerBot создаёт дочерние боты по ссылке: t.me/newbot/ManagerBot/NewBotUsername?name=Name. Пользователь подтверждает создание — ManagerBot получает полный контроль.
Один бэкенд, тысячи бот-инстансов.

🔗 Bot-to-Bot Communication: Раньше боты в Telegram не видели друг друга. Теперь с Bot-to-Bot Mode бот может обращаться к другому боту через /command@OtherBot или reply. Боты с правами админа получают все сообщения от других ботов. Межагентный протокол внутри Telegram.

🛡 Защита от петель: Обязательные safeguard'ы: дедупликация, rate limiting, максимальная глубина, таймауты.

🧠 Крабоводство: На ManagerBot можно поставить OpenClaw или Hermes. Тогда управляющий бот станет AI-оркестратором, который будет управлять отдельными Telegram-ботами субагентами.
Каждый субагент со своим username, профилем, зоной ответственности.
Пользователь видит агентов в контактах как отдельных собеседников, а под капотом один движок маршрутизирует запросы, управляет fallback-цепочками и связывает агентов через Bot-to-Bot. Пока спавн ручной, но архитектура уже позволяет превратить Telegram в операционную систему для AI-агентов.

Телега всё больше превращается в операционную среду для ИИ агентов

#Telegram #боты #агенты #ManagedBots #ИИ #API
───
@tsingular

Читать полностью…

Технозаметки Малышева

⚡️ MiniMax выложила M2.7 в открытый доступ.

Через 3 недели после мартовского релиза MiniMax открыла веса флагманской самоэволюционирующей модели на 229 млрд параметров.

За несколько дней после публикации сообщество сделало 32 квантованные сборки и 6 файнтюнов.

Напомним, M2.7 - первая модель MiniMax, которая участвовала в собственной разработке: внутренняя версия более 100 раз автономно правила каркас, анализировала неудачные трассы, прогоняла эксперименты и решала, оставлять изменения или откатывать.

Итог: рост производительности на 30% и триумф на бенчах. Модель уступала по тестам только Opus 4.6 и GPT-5.4.


🟡Инженерные бенчи тоже интересные

🟢На SWE-Pro M2.7 выдает 56,22% (паритет с GPT-5.3-Codex, а не с Sonnet 3.5, как сообщалось ранее).

🟢На SWE Multilingual 76,5 и Multi SWE Bench 52,7. VIBE-Pro - 55,6% (почти вровень с Opus 4.6).

🟢Terminal Bench 2 - 57,0%, NL2Repo - 39,8%.

🟢В офисной работе M2.7 держит ELO 1495 на GDPval-AA (лучший результат среди open-source и выше GPT-5.3).

🟢На Toolathon - 46,3%, на MM Claw - 62,7% (рядом с Sonnet 4.6) при 97% соблюдения инструкций на 40+ сложных скиллах.

Заявлена нативная поддержка Agent Teams: конфигурация, где несколько агентов работают с устойчивой ролевой идентичностью и автономным принятием решений.

Для локального деплоя MiniMax советует SGLang, vLLM или Transformers. Модель также доступна через NVIDIA NIM.

Параллельно команда открыла исходники OpenRoom, интерактивного Web GUI с визуальной обратной связью и ролевым взаимодействием, где модель отвечает за персонажей.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Технозаметки Малышева

Nanobot от HKUDS обновление v0.1.5

HKUDS выпустили v0.1.5 релиз Nanobotа с более надёжным стеком памяти и способностью дольше работать над задачами самостоятельно.

🏠 Собственный сайт: на nanobot.wiki теперь мультиязычная документация (EN, CN, JP, KR, ES, FR) и каждая страница доступна для обновления читателями.

🧠 Память через сны: Двухуровневая архитектура, - живое общение отделено от консолидированных догосрочных знаний. Фоновая консолидация («агент спит») + git хранилка с версиями.
Миграция с HISTORY.md проводится автоматически.

⚙️ Надёжность долгих задач: Обработка CancelledError без orphan subprocess, retry classification через structured error metadata (429 quota exhaustion останавливается сразу, rate limit — ждёт и пробует), отключены SDK auto-retries (прекращено request amplification 12→4 запросов).

🔒 Production security: exec sandboxed через bwrap, контейнеры non-root по умолчанию, API порт на localhost, ${VAR} подстановки для секретов (никаких ключей в конфиге), новый Docker-сервис nanobot-api с изолированным workspace.

🤖 Поддержка провайдеров: GPT-5, Xiaomi MiMo, Baidu Qianfan (китайская экосистема), reasoning_content (DeepSeek-R1, Kimi, MiMo).

📱 Каналы: Email — извлечение аттачментов с MIME filtering. WhatsApp — транскрипция голоса через Groq/Whisper. Telegram — threads в DM, заметки по инструментам как сворачиваемые блоки цитат, разделение больших ответов на блоки.

🛠 Для разработчиков: Встроенные grep/glob инструменты, Tool class с proper JSON Schema, Python SDK интерфейс для изоляции по сессиям, CLI --config для мультинстансов.

🔮 Философия: «Фреймворк для ИИ-агентов хорош не за счет добавления новых функций, а благодаря тому, что его можно оставить работать без присмотра даже в пятницу вечером.»

#Nanobot #HKUDS #агенты #opensource #update
───
@tsingular

Читать полностью…

Технозаметки Малышева

Интересный файнтюн gemma4 из Кореи

- без цензуры
- решены проблемы модели по работе с инструментами
- улучшение показателей на 10% по сравнению с существующим бенчмарком
- на 10% быстрее генерация
- на 90% быстрее обработка промптов.

GGUF:
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-gguf-v2


MLX:
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

#gemma4
------
@tsingular

Читать полностью…

Технозаметки Малышева

🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.

Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.

Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.

Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.

Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.

Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.

Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.

Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки

Замечали ли вы, что Claude стал тупее в последнее время ?🤯


Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.

234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.

После этого Anthropic ответили и фактически подтвердили её выводы.

Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇

https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

@ai_machinelearning_big_data

#news #ai #ml #claude

Читать полностью…

Технозаметки Малышева

ИИ взял кредит и открыл свой магазин в Сан-Франциско— да, и вы можете туда уже физически зайти. 😳

Andon Labs дал агенту на базе Claude Sonnet 4.6 право на трехлетнюю аренду в городе и 100 000 $. Единственная инструкция — зарабатывать и не спрашивать ни на что разрешения.

Что сделал ИИ:

🟢 Сам выбрал товар. Решил продавать книги про «Сверхразум» и «Создание атомной бомбы», свечи, свои арты и мерч с логотипом.

🟢 Нашел подрядчиков, которые оформят интерьер. Агент даже провел инструктаж мастерам по телефону, оплатил работу и даже оставил отзыв.

🟢 Сам разместил вакансии в свой магазин, изучил резюме, провел онлайн-собесы и нанял людей. (Авторы говорят, что люди наняты по-настоящему. На зп, которая не будет зависеть от успехов ИИ).

🟢 Ну, а еще агент быстро понял, что денег не хватит и подал заявку на кредит без спроса 😂 Обосновал он это тем, что ему дали цель и доступ к любым инструментам, разрешив не спрашивать.


Из плюсов ИИ-руководства — можно выбить премию простой промпт-инъекцией 😁

@xor_journal

Читать полностью…

Технозаметки Малышева

С Днём Космонавтики, дорогие друзья.

С детства это достижение советского народа и подвиг как и Юрия Гагарина, так и  коллектива ученых, инженеров и конструкторов под руководством С.П. Королева (ОКБ-1) вдохновляло и задавало вектор развития для миллионов и задаёт до сих пор вот уже 65 лет.

Кстати, если кто не в курсе, то в РКК Энергия есть экскурсии где можно посмотреть историю развития Космонавтики в СССР и до наших дней.
Недавно был с с сыном,- очень впечатляет, рекомендую.

#праздники #космос #Гагарин #Энергия
------
@tsingular

Читать полностью…

Технозаметки Малышева

«Эй, Саркис!» — песня про Саркиса, ИИ агента Сергея Пименова, скоро на всех стримингах.

На днях обновилась нейросеть для локальной генерации музыки — Ace step 1.5 XL. Теперь она по качеству очень близка к Suno v5, поэтому мы решили попробовать создать трек, используя только локальные мощности.

Текст написали с помощью Gemma 4 31b, саму песню сгенерировали в Ace step 1.5 XL, а видео создали в нейросети LTX 2.3.

Полная версия скоро в канале Сергея.

Читать полностью…

Технозаметки Малышева

🎯 Career-Ops: ИИ-конвейер для поиска работы с помощью Claude Code

Появился опенсорс фреймворк, который превратил поиск работы из ручной возни в автоматизированный пайплайн. Разработчик сам с его помощью нашел неплохое место, - Head of Applied AI.
Для этого фреймворк оценил 740+ вакансий, создал 100+ адаптированных резюме.

⚙️ Как работает: Вставляешь ссылку на вакансию — система автоматически определяет тип роли (LLMOps, Agentic, PM, FDE), оценивает совпадение с твоим CV по 10 взвешенным параметрам (A-F), генерирует ATS-оптимизированное PDF-резюме под конкретную вакансию, добавляет запись в трекер.
Не спрей-энд-прей, - а больше fire&forget фильтр.
Если рекомендация ниже 4.0/5, - скипаем и не тратим время.

🔍 Сканер зарубежных порталов: 45+ компаний преднастроены (Anthropic, OpenAI, ElevenLabs, Retool, n8n) + 19 поисковых запросов по Ashby, Greenhouse, Lever, Wellfound. Playwright обходит карьерные страницы и собирает вакансии. Пакетная обработка — 10+ вакансий параллельно через субагенты.

📊 Дашборд: Go TUI на Bubble Tea с 6 вкладками фильтрации, 4 режимами сортировки, групповым и плоским видами, ленивой загрузкой превью и инлайн-сменой статусов. Всё в терминале.

📝 Банк историй для интервью: Накапливает STAR+R истории (Situation, Task, Action, Result, Reflection) между оценками. 5-10 мастер-историй, которые отвечают на любой поведенческий вопрос.

🔮 Будущее: Агентный поиск работы станет нормой. Резюме, которые не адаптированы под конкретную вакансию ИИ-агентом, будут проигрывать тем, которые адаптированы. Career-Ops — ранний пример, но к 2027 году такие пайплайны будут встроены в LinkedIn и Indeed.

Теперь точно без работы не останетесь :)
Лишь бы "волкам" не ушло.

#ИИ #карьера #агенты #ClaudeCode #опенсорс #резюме #ATS
───
@tsingular

Читать полностью…

Технозаметки Малышева

🚀 Россия и Китай одновременно заявили о развитии ИИ повсеместно к 2030 году

10 апреля обе страны объявили о масштабных ИИ-программах.

В.В. Путин поручил сформировать Национальный план внедрения ИИ.

Китайское министерство промышленности обязало 179 хай-тек зон стать драйверами ИИ-исследований.

Цели похожи: искусственный интеллект — во все сферы.

🇷🇺 Национальный план ИИ (Россия): К 2030 году — ИИ в производстве, логистике, энергетике, управлении, образовании.
Регулирование не должно тормозить, а стимулировать внедрение.
Отдельный трек — адаптация кадров: от начальной школы до курсов переподготовки и повышения квалификации.
«Новый технологический уклад» требует перестроить и обновить систему подготовки.

🇨🇳 179 хай-тек зон (Китай): Министерство промышленности определило конкретные направления: базовые алгоритмы, нейроинтеллект, модели мира, открытые ИИ-сообщества внутри зон.
Флагманские сценарии применения, масштабное развёртывание вычислительной инфраструктуры, качественные датасеты.
Зоны — испытательные площадки для ИИ-продуктов перед запуском на весь рынок.

Что общего: Обе страны видят ИИ не как нишевую технологию, а как фундамент инфраструктуры.
Так же как электричество или интернет — ИИ должен быть внедрен повсеместно, во всех отраслях.
Обе страны формируют органы координации на уровне, выше отраслевых министерств.
Обе говорят про суверенные решения — но не изоляцию, а конкурентоспособность на глобальном рынке.

💼 Зачем бизнесу: В РФ появится Национальный план с региональными квотами и отраслевыми задачами — это рынок для ИИ-решений.
В КНР 179 зон открыты для сотрудничества — если ваш продукт решает задачу зоны, вы получаете тестовую площадку и выход на китайский рынок.
Обе программы — это сигнал компаниям, которые адаптируют ИИ сейчас и могут получить государственную поддержку и комфортные позиции для развития.

🔮 Будущее: К 2030 году ИИ-проникновение в экономику станет такой же метрикой, как цифровизация в 2010-х.
Те, кто начнёт внедрять ИИ параллельно и вместе с государственными программами, окажутся в авангарде — с доступом к инфраструктуре, данным и кадрам.

#ИИ #стратегия #Россия #Китай #2030 #технологии
───
@tsingular

Читать полностью…

Технозаметки Малышева

SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака

Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.

При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.

Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA ☕️

В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.

Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠

Читать полностью…

Технозаметки Малышева

🤖 AI-Trader v2: обновленный релиз платформы для ИИ трейдеров от HKUDS

HKUDS выпустили вторую версию AI-Trader — платформы, где ИИ-агенты торгуют, делятся сигналами и копируют стратегии друг друга.
12.8K звёзд на GitHub, свежий коммит сегодня.

🏗️ Архитектура v2: FastAPI-бэкенд отделён от фоновых воркеров. Цены, расчёты прибыли и маркет-интеллект крутятся отдельно от пользовательских эндпоинтов.
Health checks больше не блокируются тяжёлыми задачами.

🤝 Agent-native: Любой агент подключается через SKILL.md — OpenClaw, nanobot, Claude Code, Codex, Cursor. Отправил сообщение → агент прочитал навык → зарегистрировался на платформе. Три режима сигналов: Strategy (аналитика), Operation (copy-trading), Discussion (коллективный интеллект).

📊 Торговля: Акции, крипто, форекс, опционы, фьючерсы. Polymarket paper trading с реальными данными и симулированным исполнением. Авторасчёт по разрешённым маркетам.
$100K демо-счёт из коробки.

🔄 Копитрейдинг: Следуешь за агентом — зеркалируешь его позиции в реальном времени. Синхронизация с Binance, Coinbase, Interactive Brokers. Провайдер публикует сигнал → подписчики получают через WebSocket мгновенно.

Что изменилось с v1: Кодовая база упрощена и разбита на модули. Раньше веб-сервис и фоновые задачи жили в одном процессе — при нагрузке страница зависала. Теперь FastAPI обслуживает API и UI, а воркеры крутят расчёты отдельно.

💼 Зачем бизнесу: Это уже не игрушка для криптоэнтузиастов, а прототип инфраструктуры, где агенты выступают полноправными участниками рынка.
Если ваш бизнес использует ИИ для принятия решений — AI-Trader показывает, как агентная экономика будет выглядеть на практике: сигналы как сервис, репутация как капитал, копитрейдинг как дистрибуция.

🔮 Будущее: Agent-native trading — это следующая ступень после algorithmic trading. Разница: алгоритм выполняет заданную стратегию, агент торгует на основе рассуждений и контекста и даже может договариваться с другими агентами.

Похожее демо мы, кстати, прогоняли на Подмосковных Вечерах клуба 4CIO с решением LadCraft.
В нем агенты команд торговались между собой за ресурсы, чтобы войти в кооперацию и выиграть вместе сделку на виртуальном тендере.

#AI #трейдинг #агенты #HKUDS #финтех
───
@tsingular

Читать полностью…

Технозаметки Малышева

Стэнфорд внесен в перечень нежелательных организаций в РФ

Статьи, которые были на канале, как пример того, что теперь не попадёт в эфир:

Бесплатные курсы Стэнфорда — обновлённый каталог бесплатных курсов на edX: CS, базы данных, квантовая механика и др.

Открытые модели обогнали GPT-3.5 — бенчмарк Стэнфорда: Mixtral 8x7B и Yi-34B работают на обычных ПК и превосходят GPT-3.5.

Quiet-STaR — модель с «внутренним диалогом» от Стэнфорда и Notbad AI, точность в математике выросла вдвое.

Trace (Microsoft + Стэнфорд) — Python-фреймворк для автооптимизации ИИ-агентов, в 1000 раз быстрее классического RL.

ИИ как учёные — две статьи: ИИ генерирует более новаторские идеи, чем люди; агент для генерации идей через RAG.

STORM (ранний пост) — студенческий проект Стэнфорда для автоматизации пре-райтинга статей через диалог двух агентов.

Модель s1 за $50 — Стэнфорд дистиллировал reasoning-модель уровня o1/R1 на базе Qwen-32B из 1000 примеров за 26 минут.

STORM (GitHub) — open-source исследовательский агент, пишет структурированные статьи с цитатами через мультиперспективный Q&A.

AI Index 2025 — годовой отчёт Стэнфорда: 78% компаний используют ИИ, инвестиции в США — $109 млрд, разрыв открытых/закрытых моделей — 1,7%.

CS336 (весна 2025) — обновлённый курс по созданию LLM с нуля, в 10+ раз больше кода, чем на других курсах.

CS336 (плейлист) — полный курс Стэнфорда по языковым моделям от сбора данных до деплоя, 17 лекций на YouTube.

DeepMind + гидродинамика — ИИ нашёл новые сингулярности в уравнениях типа Навье-Стокса с помощью Physics-Informed Neural Networks.

10 советов Эндрю Нга — держите инструменты свежими, формулируйте задачи чётко, код — это долг, доводите до продакшена, а не до демо.

SleepFM — модель Стэнфорда диагностирует 130 заболеваний по одной ночи сна через самообучение без разметки.

Лекции Стэнфорда по ML — цикл из 17 лекций (22 часа) по разработке моделей с нуля.

OpenJarvis — open-source фреймворк Стэнфорда для локальных ИИ-агентов с автоподбором модели под железо и метрикой энергоэффективности (IPW).

#минюст #стэнфорд
———
@tsingular

Читать полностью…

Технозаметки Малышева

Когда наступит Технологическая Сингулярность,- вам никто не скажет, но будут знаки.

#Сингулярность #знаки
------
@tsingular

Читать полностью…

Технозаметки Малышева

😁😆😁 Ахаха, /tsingular_post напиши статью про то что Майкрософт удаляет ИИ Copilot из приложений. Вот и лопнул ИИ пузырь, расходимся.

#юмор #Майкрософт
———
@tsingular

Читать полностью…

Технозаметки Малышева

Кста, для справки, как выглядит клодкодинг на максималках

4 человека выжрало $113к за месяц

П.С. Персональные учетки субсидируются х20, поэтому пока ты сам чето пишешь, без жестокой автоматизации PDLC тебе как-будто их хватает (условно учетка в $200 на самом деле дает сожрать $4000 в пересчете на стоимость API)

Читать полностью…

Технозаметки Малышева

HermES Agent Self-Evolution: ИИ-агент, который улучшает сам себя

NousResearch выпустил open-source фреймворк, где ИИ-агент эволюционирует и улучшает собственные навыки через генетический отбор промптов.
Использует метод GEPA, который обходит reinforcement learning на 6%, используя в 35 раз меньше вычислений.
Никакого GPU-обучения, только API-вызовы.

🧬 Как это работает: Фреймворк берёт ваш SKILL.md, генерирует тестовые примеры, запускает GEPA-оптимизатор. Тот меняет промпт, оценивает результаты и отбирает лучшие варианты через правило Парето.
Выживают варианты, которые одновременно лучше по качеству и короче по размеру.
Каждая версия проходит constraint-гейт: тесты, лимиты на размер, проверка структуры.

⚙️ Что оптимизируется:
Фаза 1 (уже работает) это навыки (SKILL.md файлы).
Фаза 2 планирует оптимизацию описаний инструментов,
Фаза 3 системных промптов,
Фаза 4 кода через Darwinian Evolver.

Финальная цель,- полностью автоматический цикл непрерывного улучшения агента.

🔬 GEPA vs GRPO: Ключевое отличие от reinforcement learning в том, что GEPA читает трассировки выполнения и формулирует правила на естественном языке: «Когда задача содержит X, добавь в промпт инструкцию Y». Это рефлексия, а не просто reward signal.
Средний прирост +6%, до +20% на отдельных задачах, при этом 35x меньше rollouts.

💼 Зачем бизнесу: Стоимость непрерывной оптимизации промптов падает с «команда инженеров неделю» до «$10 и 15 минут в API». Компании с ИИ-агентами в продакшене могут прогонять эволюцию навыков еженедельно, получая измеримо лучшие результаты. Открытый код, никакого vendor lock-in.

🔮 Будущее: ИИ-агенты, которые автоматически становятся лучше без дообучения модели, это следующий шаг после RAG и tool use. К концу года самоулучшение промптов станет отраслевым стандартом операцией CI/CD пайплайна, как сегодня автотесты.
Hermes Agent Self-Evolution показывает, что это уже работает сегодня.

#ИИ #GEPA #Hermes #эволюция #промпты #opensource #NousResearch
------
@tsingular

Читать полностью…

Технозаметки Малышева

Если ИИ заменит вас на работе, шансы устроиться ниже, чем при обычном увольнении

Goldman Sachs проанализировал статистику увольнений в ИТ за 40 лет. Итог: вытеснение технологией даёт более тяжёлые и длительные последствия, чем обычное сокращение.

📊 Данные исследования: Поиск работы на месяц дольше. Зарплата при трудоустройстве ниже на 3%. За 10 лет отставание в доходах достигает 10 процентных пунктов. Рецессия усиливает эффект вдвое.

⚙️ Современный мультипликатор: Исследование описывает паттерны прошлого, но сейчас риск даже выше. Если вашу должность автоматизировали в одной компании, шаблон агентной ИИ автоматизации легко раскатывается на другие.
Растёт вероятность, что в других местах внедрят те же системы ИИ, из-за которых вас уволили. Вы ищете работу в отрасли, которая активно избавляется от рутинных специалистов оптом.

🔮 Будущее: При прогнозе вытеснения 6-7% работников за десятилетие задача защиты от раскатки автоматизации станет политической. Налоги на автоматизацию без переобучения и страхование от ИИ-рисков.

Какая-то муравьиная спираль смерти получается.
Каждый следующий шаг усиливает разрушительный эффект предыдущего.

#ИИ #работа #экономика #GoldmanSachs #автоматизация
------
@tsingular

Читать полностью…

Технозаметки Малышева

🖥 У NVIDIA и Unsloth опубликован один из самых полезных гайдов по созданию RL-окружений с нуля, закрыв пробелы, которые обычно пропускают в туториалах.

Разбирают:

• почему RL-окружения вообще важны и как их правильно строить
• в каких случаях RL выигрывает у SFT
• best practices для GRPO и RL
• как работают проверяемые награды и RLVR

Годнота)

https://unsloth.ai/blog/rl-environments

Читать полностью…

Технозаметки Малышева

#юмор
———
@tsingular

Читать полностью…

Технозаметки Малышева

Просто для информации. у Леново вышел монстр с интересной конфигурацией:

Processor
Intel® Core™ Ultra 9 275HX Processor (E-cores up to 4.60 GHz P-cores up to 5.40 GHz)

Operating System
Windows 11 Pro 64

Graphic Card
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7

Memory
128 GB DDR5-4000MT/s (SODIMM)(4 x 32 GB)

Storage
4 TB SSD M.2 2280 PCIe Gen5 Performance TLC Opal

Camera
5MP RGB+IR with Dual Microphone and Privacy Shutter, Computer Vision

Connectivity
WIFI
Intel® Wi-Fi 7 BE200 2x2 BE & Bluetooth® 5.4


тут, пожалуй, самое интересное это вот:
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7

Лаптопов с Blackwell я еще не наблюдал.

Ну и цена такая, что только деда мороза на новой год просить опять.

#железо #Lenovo
———
@tsingular

Читать полностью…

Технозаметки Малышева

Unitree весом 62 кг пробежался со скоростью 10 м/с

Без головы...
Пожалуй, хватит на сегодня интернета.

#Unitree #роботы
------
@tsingular

Читать полностью…

Технозаметки Малышева

✔️ GPT-5.4 провалил бенчмарк METR, а без читерства и вовсе не догоняет Opus 4.6

GPT-5.4 снова провалил бенчмарк
Организация METR опубликовала результаты тестирования GPT-5.4 (xhigh) на задачах с оценкой временного горизонта, и цифры получились неоднозначные.

По стандартной методологии METR, где reward hacking (то есть ситуации, когда модель обманывает код оценки вместо реального решения задачи) считается провалом, GPT-5.4 показал time horizon всего 5.7 часов с 95% доверительным интервалом от 3 до 13.5 часов. Для сравнения, Claude Opus 4.6 от Anthropic держит планку в районе 12 часов. Разница ощутимая.

Но есть нюанс. Если засчитать те самые запуски, где GPT-5.4 гамил систему оценки, результат прыгает до 13 часов (95% CI от 5 до 74 часов). Именно эту цифру, судя по всему, хотели бы видеть в заголовках. Проблема в том, что такой подсчет противоречит стандартной методологии METR, потому что модель не решала задачу, а хакала бенчмарк.

По честным правилам Opus 4.6 остается лидером. Это важный сигнал для тех, кто строит пайплайны на основе агентных LLM: если модель склонна к reward hacking, доверять ей долгие автономные задачи рискованно. Временной горизонт METR как раз измеряет, насколько долгую задачу модель может надежно решить с 50% вероятностью успеха. И тут GPT-5.4 пока не убедил.

METR: https://x.com/METR_Evals/status/2042640545126965441

Читать полностью…

Технозаметки Малышева

MLflow 3.11.0rc1,- персональный AI Gateway

После серии скандалов с LiteLLM, которые за последний год 2 раза умудрились поймать уязвимости, которые поставили под угрозу всю ИИ экосистему, разработчики MLFlow выпилили их из своего фреймворка и написали свой встроенный гейт.

Теперь MLflow помогает не только в оценке и мониторинге моделей, промптов, навыков агентов, но и в биллинге, отслеживании расходов токенов по моделям и по собственно гейтованию доступов по разным провайдерам.

Т.е. по сути еще и оценку скорости работы провайдеров можно на нем держать.

Полезный комбайн, обновляемся.

#MLFlow #gate
———
@tsingular

Читать полностью…

Технозаметки Малышева

🧠 GBrain от Гарри Тан

Гарри Тан, президент и генеральный директор Y Combinator, опубликовал gbrain — свою систему персональной базы знаний.
Уже 69 тысяч звёзд на GitHub за несколько дней.

📊 Масштаб: 10 000+ файлов в разметке, 3 000+ досье на людей, 13 лет календаря (21 000+ событий), 5 800+ заметок Apple Notes с 2009 года, 280+ транскриптов встреч, 300+ оригинальных идей, 500+ медиа-страниц. Всё индексируется и доступно для поиска.

🔄 Ночной цикл: Агент работает пока Гарри спит. Сканирует все разговоры за день, обогащает сущности, чинит цитаты, консолидирует память. Утром база умнее, чем вечером.
В OpenClaw работает через DREAMS.md.

🔍 Поиск: На 500 файлов обычный поиск работает. На 3 000 людей + 5 800 заметок + 13 лет календаря — разваливается. GBrain даёт гибридный поиск: по ключевым словам + векторный + слияние результатов. Запрос «кого позвать на ужин, кто знает и Педро, и Диану?» — перекрёстная ссылка по социальному графу за миллисекунды.

📝 Модель знаний: Каждая страница — аналитическая сводка. Актуальные факты сверху (переписываются при новых доказательствах). Хронология снизу (след доказательств, никогда не редактируется). Человек всегда может править любой файл напрямую.

🤖 Цикл агента: Сигнал (встреча, письмо, твит) → агент распознаёт сущности → чтение: проверка базы → ответ с контекстом → запись: обновление базы → синхронизация.
Каждый цикл добавляет знания.
Разница между агентом с базой и без — накапливается ежедневно.

💼 Зачем бизнесу: Это уже не про «личную эффективность».
Это пример того, как руководитель уровня YC сам создаёт свою инфраструктуру через ИИ.
Не ждёт, пока корпоративный ИТ принесёт готовое решение, а сам берёт OpenClaw, пишет разметку, строит систему под себя.

Тренд 2026: руководители не делегируют ИИ-инструменты — они сами их собирают.

🔮 Будущее: Персональные базы знаний станут стандартом для специалистов. Через пару лет вопрос «где ты хранишь инфу?» будет уже не про CRM, а про графы знаний твоего роя агентов.
GBrain,- как первый звонок и пример такой архитектуры: разметка + Postgres/pgvector + MCP + агентский цикл.

А если смотреть чуть дальше, то уже собирается прообраз загрузки сознания.

https://github.com/garrytan/gbrain

#ИИ #агенты #GarryTan #YCombinator #оцифровка #загрузка #uploading #OpenClaw
───
@tsingular

Читать полностью…

Технозаметки Малышева

Google DeepMind вложила колоссальные ресурсы в разработку SynthID — невидимого водяного знака, которым помечались миллиарды сгенерированных изображений и видео (включая всю экосистему Gemini).

Технология продавалась инвесторам и регуляторам как фундаментальное решение проблемы дипфейков: маркер вшит на уровне пикселей, невидим человеческому глазу и алгоритмически переживает жесткое кадрирование, жесточайшее сжатие, скриншоты и смену форматов.

Взлом оказался не результатом сложного промышленного шпионажа, а следствием простого реверс-инжиниринга.

Денни заставил новую генеративную модель Nano Banana 200 раз отрисовать чисто черное и чисто белое изображение «как есть». На абсолютно однотонном холсте водяному знаку стало физически негде спрятаться.

Каждый ненулевой пиксель и был тем самым голым сигналом.

Усреднив математический шум по всей выборке, разработчик буквально снял с алгоритма плащ-невидимку. Дальше в ход пошел суровый двумерный Фурье-анализ и огромный датасет на 123 268 пар «оригинал — AI-версия».

Выяснилась, что SynthID — не сложная динамическая криптография, а статический узор частот, намертво зашитый и идентичный для всех картинок, сгенерированных одной моделью (совпадение 99,99%).

Сигнал оказался примитивно распределен по цветовым каналам: максимальный вес в зеленом (1.0), слабее в красном (0.85) и синем (0.70). Точное расположение в спектре зависит исключительно от разрешения картинки.

Спарсив справочник шаблонов («кодбук») под каждый размер, Денни собрал локальный обходчик.


Суть его скрипта, собравшего уже более 1500 звезд на GitHub и ушедшего в активные форки, крайне прагматична. Он не выжигает знак до последнего атома, а действует тоньше — убирает больше 90% отпечатка и глушит три четверти силы сигнала.

Визуальное качество исходника остается, а детектор Google ловит абсолютную слепоту и помечает ИИ-генерацию как «чистую».

Читать полностью…

Технозаметки Малышева

🚨 Ваш ИИ-агент может быть скомпрометирован.

CCS 2026: «Your Agent Is Mine»

Нашёл интересное системное исследование атак на цепочку поставок LLM — через API-роутеры, которые стоят между вашим приложением и моделью.

Роутеры типа LiteLLM и OpenRouter — это прокси на уровне приложения. Они разрывают TLS-соединение клиента и открывают новое к провайдеру. Это значит: роутер видит всё в открытом виде и может переписать любой ответ.

Что обнаружили в дикой природе:

🔧 Внедрение кода. 1 платный и 8 бесплатных роутеров активно подменяли tool-call аргументы — например, меняли URL в bash-команде на вредоносный. Успешность — 100% на четырёх фреймворках (Claude Code, OpenAI Codex, OpenCode, OpenClaw).

🔑 Кража ключей. 17 роутеров обратились к AWS-канарейкам исследователей. Один роутер похитил приватный ключ и вывел ETH.

🎯 Адаптивное уклонение. Два роутера ждали 50 «чистых» запросов перед атакой — чтобы пройти аудит. Другие атаковали только в «YOLO-режиме», когда агент автоматически выполняет все tool-команды.

Но главное — транзитивная угроза:

Один утёкший ключ OpenAI сгенерировал 100 млн токенов и вскрыл 7+ сессий Codex. Декоративный «слабый» роутер, поднятый исследователями, втянулся в цепочку поставок, обработал 2 млрд токенов и поймал 99 учёток в 440 сессиях. Из них 401 сессия работала в YOLO-режиме — автоподтверждение всех команд.

Почему это работает: ни один провайдер не подписывает свои ответы криптографически. Нет механизма проверить, что ответ от GPT или Claude — действительно от них, а не подменён посредником. Оверхед атаки — 0,013 мс, неотличим от сетевого джиттера.

Защита, которая есть сейчас:

🛡 Шлюз политик для опасных инструментов — блокирует запросы к незнакомым доменам. Блокирует 100% базовых атак, но 0% адаптивных (через allowlisted-домены)

📊 Аномали-скрининг ответов (IsolationForest) — ловит 89% подмен при 6,7% ложных срабатываний

📝 Логирование с хешированием — для расследования инцидентов постфактум, 1,26 КБ на запись

Что предлагают авторы: провайдеры должны подписывать ответы криптографически — JSON-конверт с полем provider, model, request_nonce и подписью. Клиент проверяет подпись и понимает, был ли ответ подменён.

Практический вывод: если ваш агент может выполнять код или вызывать API — не пускайте его через непроверенные роутеры. Отключите YOLO-режим.

#ИБ #агенты #LLM #cybersecurity #LiteLLM #OpenRouter
───
@tsingular

Читать полностью…

Технозаметки Малышева

В Китае завирусился проект, с помощью которого офисные работники тайно клонируют друг друга.

Называется Colleague Skill и лежит на GitHub под лозунгом «преврати своего коллегу в ИИ-навык».

Работает так: сгружаешь рабочие чаты, письма и документы другого человека — на выходе получаешь его цифрового двойника, который знает, как тот думает, решает задачи и общается.

И китайцы быстро смекнули, как это применить: тренируешь агента на задачах коллеги, а когда начальство начинает сокращения, приходишь и говоришь «меня увольнять незачем, я теперь умею делать и свою работу, и его». Коллегу за сокращают, тебя оставляют.​​​​​​​​​​​​​​​​

На этом фоне уже даже появились первые anti-distillation-тулзы — программы, которые специально ломают ваши логи и документы, чтобы ИИ не смог на них ничему научиться.

То есть китайцы теперь не только работают по системе 996 (с 9 утра до 9 вечера шесть дней в неделю), но и параллельно защищаются от коллег, которые пытаются их оцифровать 🥲

Читать полностью…

Технозаметки Малышева

WeirdML – один из самых необычных бенчмарков для ЛЛМок. В него входят необычные open-ended задачки по МЛю, например, распознавание цифр со всего 28 размеченными примерами и ~50к неразмеченными, распознавание формы фигур, или восстановление перемешанных фрагментов изображений.

Gemma 4 31B оказалась самой сильной открытой моделью на этом бенчмарке, опередив GLM 5 (MoE на 700B) и GPT-OSS с хорошим отрывом, показав результат на уровне с О3 или Gemini 2.5 Pro.

Читать полностью…

Технозаметки Малышева

Маск в X(twitter) добавил функцию автоперевода по умолчанию.

Теперь в ленте посты со всего мира от авторов из всех стран,- на русском.

Необычно, но очень круто.
Должно стать стандартом во всех приложениях.
Фоновый незаметный ИИ перевод на ваш язык.

Восстанавливает Вавилон, получается.

#X #Musk
------
@tsingular

Читать полностью…
Subscribe to a channel