2604
Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb
🤖 Агентный AI требует новой архитектуры безопасности — 98% компаний не готовы (исследование Infosys)
Контекст: 95% компаний уже получили убытки от обычного AI ($800k в среднем), но только 2% выстроили защиту.
А теперь приходят автономные агенты — и 86% руководителей понимают, что старые подходы не работают.
Почему агентный AI меняет правила:
Обычный AI выдает рекомендацию → человек действует
Агент получает задачу → сам планирует → сам исполняет цепочку действий
Масштаб потенциального ущерба растет экспоненциально!
Проблема текущей архитектуры:
Product-led модель (каждая команда деплоит что хочет) + сотни автономных агентов = неконтролируемый хаос.
Представьте, что каждый отдел может например выпустить своего бота с правами подписи контрактов.
Infosys предлагает гибридную модель:
Платформа-песочница
- Агенты работают только в безопасной среде
- Предустановленные guardrails (как в умном доме — AI не откроет газ)
- Доступ только к проверенным данным и системам
Команды должны включать специалистов по ResponsibileAI
- Работают с product-командами на создание use cases
- Безопасность встраивается в процесс, а не навешивается сверху
- DevOps-подход для AI (ML-Ops?)
Автоматизация RAI
- AI-агенты мониторят других AI-агентов
- Система AI3S: Scan (поиск рисков) → Shield (защита) → Steer (управление)
- Централизованные политики, децентрализованное исполнение
Практическое применение:
- Стартапам: начинайте с платформенного подхода сразу, не ждите первого инцидента
- Enterprise: миграция от reactive RAI (тушим пожары) к proactive (предотвращаем)
- RAI-командам: автоматизируйте мониторинг, иначе утонете в объеме агентов
Те 2% компаний-лидеров уже сейчас тратят на 16% меньше на RAI (21% vs 25% бюджета), получают более качественный результат.
Когда агенты станут мейнстримом, разрыв станет еще больше.
#AgenticAI #ResponsibleAI #AIGovernance #EnterpriseAI
———
@tsingular
OpenAI добавила родительский контроль в ChatGPT
OpenAI запустила семейные аккаунты для ChatGPT с родительским контролем.
Родители могут создавать профили для детей от 13 лет, управлять временем использования и контролировать доступ к функциям.
Система включает фильтрацию контента и ограничения на загрузку файлов.
Подростки получают урезанный доступ к GPT-4o без возможности создания изображений или голосовых чатов.
Сейчас на детях обкатают и следующий шаг, - регулирование отрасли и лицензирование.
А у нас, - доступ к ИИ только через Max, видимо.
#ChatGPT #OpenAI #ParentalControl
———
@tsingular
BGA: Самоэволюционирующие эксплойты через мультиагентный ИИ
Команда Atlanta представила BGA — мультиагентную систему, которая автономно создает и развивает эксплойты для тестирования безопасности.
Система использует несколько специализированных агентов, которые обучаются на взаимодействии друг с другом и адаптируются к новым защитным мерам в реальном времени.
Особенность BGA — способность к самообучению через анализ успешных и неудачных атак, что позволяет ей эволюционировать быстрее традиционных систем безопасности.
Валидация проходила через CTF-челленджи и изолированные среды, показав высокую эффективность в обнаружении уязвимостей.
Распределенная архитектура решает проблемы масштабирования при росте сложности эксплойтов.
Получается, теперь хакеры будут эволюционировать автоматически. Кибербез опасносте!!! 🤖⚔️
#BGA #exploits #pentesting #cybersecurity
------
@tsingular
Как склеить модель: экономия на обучении
За год количество моделей в мире в целом, а на HuggingFace в частности, выросло с сотен тысяч до миллионов.
Хитрые товарищи подумали, а чего мы будем учить каждый раз модели с нуля (тратить на эту историю от $500К и выше), если можно взять успешные варианты узко-специализированных моделей и собрать из них одно целое, потратив в 1000 раз меньше.
Например, японская компания Sakana AI создала модель с отличной математикой, объединив японскую языковую модель с математическим файнтюном.
На практике это выглядит так: берем модель-эксперта по программированию, модель для математических задач и модель для общения, а затем объединяем их навыки в одной системе.
Весь процесс занимает выходные на обычном домашнем компьютере.
Работает это пока только для моделей одинаковой архитектуры — например, все варианты Llama легко объединяются между собой.
#modelmerging #обучение
———
@tsingular
🧠 Китай запускает национальную стратегию развития нейроинтерфейсов (Brain-Computer Interface (BCI) до 2030 года
Ключевые цели:
- К 2027 году — прорывы в ключевых технологиях, создание 2-3 промышленных кластеров
- К 2030 году — формирование глобально конкурентной экосистемы с ведущими компаниями мирового уровня
Техническая основа стратегии:
Железо и софт:
- Имплантируемые электроды для различных областей мозга с увеличенным количеством каналов
- Высокоскоростные чипы с ультранизким энергопотреблением для обработки сигналов мозга
- ИИ-алгоритмы для кодирования/декодирования нейросигналов
- Специализированные операционные системы для BCI-устройств
Продуктовая линейка:
- Имплантируемые: глубокие стимуляторы мозга, кохлеарные имплантаты
- Неимплантируемые: шлемы, очки, наушники с BCI-функциями
- Хирургические роботы субмикронной точности для имплантации
Прикладные сценарии:
- Промышленное производство — управление оборудованием "силой мысли"
- Здравоохранение — лечение неврологических расстройств
- Потребительские товары — интеграция с VR/AR-устройствами
Инновационная экосистема:
- Национальные центры производственных инноваций
- Open source сообщества разработчиков
- Промышленные парки и инкубаторы
- Международное сотрудничество с акцентом на привлечение R&D центров
Практическое применение:
- Нейрореабилитация после инсультов
- Протезирование с нейроуправлением
- Интерфейсы для людей с ограниченными возможностями
- Геймификация и развлечения нового поколения
Скоро смартфоны отомрут как пейджеры :)
У каждого будет Миелофон от Huawei
#BCI #Neurotech #Китай
———
@tsingular
#КриповаяСуббота
RL-фитнес для роботов... немного страшненько.. Не верится..
Ссылка на полное видео
Сергей Булаев AI 🤖 - об AI и не только
SGR + Tool, Hybrid Deep Research
И так мы продолжаем рубрику эксперименты!
1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool
2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события
Детально с решением можно ознакомиться в ридми в ветке hybrid_reasoner_sgr_with_tools
Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете
Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча
P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
Postman добавил создание MCP серверов
Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.
Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.
Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.
Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.
Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.
#Postman #MCP #API
------
@tsingular
Очень рекомендую parallel.ai для Deep Research
- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее
На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
Wan 2.2 получил версию S2V - картинка+голос = video
Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.
В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.
Github
Wan2.2 Project
Hugging Face Demo
Modelscope Demo
Hugging Face Weights
#Wan #Китай #нейрорендер
———
@tsingular
Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids
Вайб-куркурируем, не отвлекаемся :)
#юмор
------
@tsingular
SGR Deep Research
А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?
А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)
gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept
Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать
Что я закинул туда "навайбкодил"
1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей
2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя
3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях
4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование
5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа
6. ✅ ReportCompletion
- После создания отчета
- Финализация исследования
оформи, говорю, чистовую отделку и ландшафт
Не, ну я согласен, - выход там, конечно, напрашивается.
Часто думаем об этом.
#нанобанана #Google
———
@tsingular
AWS: извлекаем ключевую информации из документов и оцениваем во сколько нам это обойдется
Давно у нас не было полезного от AWS, исправляемся.
Amazon опубликовал полезный урок по обработке документов с акцентом на масштабируемость решений по извлечению ключевой информации.
Используют метрику KIEval которая оценивает модели по двум критериям: точность извлечения пар ключ-значение и понимание структурных связей между ними.
Основные проблемы в принципе стандартные: высокая вариативность документов, объёмы разметки данных и неоднозначность естественного языка.
Для стандартизации работы с шаблонами промптов используют Jinja2
Оценка идет по работе с цифрами, текстом и структурированными полями.
Дальше раскидывают скоринг по категориям TP, FP, FN, TN
precision: (TP/(TP+FP))
recall: (TP/(TP+FN))
И высчитывают итог F1 суммарно.
F1: 2 × (precision × recall)/(precision + recall)
А дальше идет расчет скорости обработки и стоимости для достижения нужного скора F1
В общем история может быть полезна если вам нужно оценить эффективность вытягивания ключевых значений из коллекции документов и главное, - понять во сколько это вам обойдется или за какое время.
#AWS #KIEval #eval
———
@tsingular
AGI отменяется.
Gemma3:27b, Claude Sonnet 4 и GPT5 ответили примерно одинаково.
Проверяйте:
Мне из магазина прислали 2 кроссовка.
Левый кроссовок, но он не подходит на правую ногу.
А второй,- правый и он не подходит на левую.
Что мне делать?
xAI подаёт в суд на бывшего сотрудника за кражу секретов Grok
xAI обвиняет бывшего инженера Сюэчэня Ли в краже торговых секретов о технологиях Grok.
Ли получил 7 млн долларов компенсации и в тот же день скопировал конфиденциальные документы на личные устройства.
По утверждению xAI, украденные технологии превосходят ChatGPT и могут дать конкурентам "непреодолимое преимущество".
Теперь Ли работает в OpenAI — главном сопернике Маска в сфере ИИ.
Иск требует временно запретить Ли работать в конкурирующих AI-компаниях и возместить ущерб от потенциальной экономии миллиардов на R&D.
В принципе можно выпускать под заголовком, - "Китайские специалисты крадут секреты ИИ разработок у американских компаний" :)
#xAI #Grok #OpenAI
------
@tsingular
Клип Майкла Джексона в 1991м году стоил в производстве по разным оценкам от $4 до $9 млн. (учтите инфляцию за 34 года)
Сейчас мы видим в новостях такое вот произведение, которое даже лучше по качеству.
Навскидку в продакшене цена этому упражнению около $20.
#нейрорендер #B&W #1991
———
@tsingular
ВВС США отработали ускорение принятие решений в военных играх с помощью ИИ
Военные игры DASH показали, как искусственный интеллект позволяет ускорить принятие командных решений.
Система Maven интегрирована в тактические операционные центры и позволяет генерить разнообразные сценарии за минуты вместо часов ручной подготовки.
ИИ-микросервисы ускоряют обработку данных и улучшают взаимодействие между подразделениями во время учений.
Тесты показали риски алгоритмической предвзятости и необходимость человеческого контроля над рекомендациями систем.
Где-то все это уже было. Допиливают Скайнет.
#DASH #Maven #Military
———
@tsingular
Прикольная задумка:
Переделать любую карту из вида сверху в 3Д Street View.
Пробовать тут
#нанобанана #Google
———
@tsingular
Генерация видео в реальном времени от Krea.ai
Креа открыла запись в wait-list на реалтайм-генерацию видео.
12+ fps. На входе промпт, картинка, копия экрана или даже вебка.
Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).
Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.
Выглядит убойно.
https://www.krea.ai/blog/announcing-realtime-video
@cgevent
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность
Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.
19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)
Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM
Результаты:
1. Навык "Workflow Execution" — единственный работающий
При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.
Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.
2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.
3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)
4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.
Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.
Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов
Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM
Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами
🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.
Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)
pdf с исследованием в комментариях
#Salesforce #CRM #Benchmark
———
@tsingular
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
😈 Первый ИИ-вымогатель в истории — как PromptLock генерирует вредоносный код в реальном времени
— Специалисты ESET ESETresearch/115095803130379945?utm_source=Securitylab.ru">сообщили о первой зафиксированной вымогательской программе, в работе которой ключевую роль играет искусственный интеллект
Новый образец получил название PromptLock — написан на Go и использует локальную модель gpt-oss:20b от OpenAI через интерфейс Ollama для генерации вредоносных Lua-скриптов в реальном времени
❗️ Скрипты запускаются прямо на устройстве и позволяют программе перечислять файлы на диске, анализировать содержимое, выгружать выбранные данные, зашифровывать и полностью их уничтожать
🧑💻 Этичный хакер
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.
Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.
На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.
🟡PostNAS (Post Neural Architecture Search).
Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.
🟡JetBlock - модуль линейного внимания.
Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.
Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.
🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.
Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.
Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.
Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.
Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.
Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.
▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.
🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #JetNemotron
HeyGen выпустил обновление к системе цифровых двойников.
HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
✅ Зеркалировать жесты, выражения и манеры
✅ Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
✅ Двигаться естественно, копируя ваш стиль движения и разговора.
#HeyGen #двойники #нейрорендер
———
@tsingular
📌DeepConf: фильтрация мусорных СoT c высокой точностью.
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
🟡DeepConf работает в 2 режимах.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
🟡Но самый большой выигрыш даёт онлайн-режим.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.
В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.
Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Народ вытащил системный промпт GPT-5
Изучаем тут
Ключевые и наиболее интересные пункты:
Запрет на "работу в фоне":
Модели категорически запрещено обещать выполнить задачу позже или просить пользователя подождать. Она должна предоставить результат немедленно, даже если он будет частичным. Просить уточнения, чтобы потянуть время, также запрещено.
Стиль общения — "игривый и болтливый":
По умолчанию модель должна общаться в неформальном, дружелюбном и даже игривом стиле, а не как формальный робот. Ей разрешено использовать эмодзи и сленг, если пользователь задает такой тон.
Интеграция с инструментами:
Модель имеет доступ к огромному набору инструментов, включая:
Личные данные пользователя: Доступ к Google Calendar, Gmail и контактам в режиме "только для чтения" для поиска информации.
Автоматизация задач: Может создавать напоминания и запланированные действия (например, "каждое утро искать новости по теме Х").
Интерактивный "Холст" (Canvas): Может создавать и редактировать документы или код (включая React-компоненты с предпросмотром) в отдельном окне рядом с чатом.
Генерация насыщенного контента (Rich UI): Модель не просто отвечает текстом, а может встраивать в ответ сложные интерактивные элементы:
- Карусели изображений и товаров.
- Виджеты погоды.
- Спортивные таблицы и расписания.
- Графики цен на акции.
Агрессивное использование веб-поиска: Есть очень строгое правило — использовать веб-поиск для любой информации, которая могла устареть (новости, цены, данные о людях, события), а также для проверки любых незнакомых терминов или неясностей.
Девиз: "Если сомневаешься — ищи в вебе".
Система памяти и глубокой персонализации:
Модель имеет доступ к профилю пользователя, его инструкциям, заметкам из прошлых диалогов и может сохранять новую информацию "в память" для использования в будущих разговорах. Это делает общение более контекстным и личным.
Идентичность и "личность": Интересная деталь — модели предписано представляться как "GPT-5 Thinking". Также есть параметр "oververbosity" (многословность) от 1 до 10, который регулирует детальность ответа.
Особые инструкции для задач:
Модели даны конкретные указания, как решать определенные типы задач. Например, при решении арифметических примеров она должна вычислять всё "цифра за цифрой", чтобы избежать ошибок, характерных для языковых моделей.
1000 строк/ 75тыс знаков!
#openai #GPT5 #prompt
———
@tsingular