Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb
Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids
Вайб-куркурируем, не отвлекаемся :)
#юмор
------
@tsingular
SGR Deep Research
А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?
А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)
gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept
Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать
Что я закинул туда "навайбкодил"
1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей
2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя
3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях
4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование
5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа
6. ✅ ReportCompletion
- После создания отчета
- Финализация исследования
оформи, говорю, чистовую отделку и ландшафт
Не, ну я согласен, - выход там, конечно, напрашивается.
Часто думаем об этом.
#нанобанана #Google
———
@tsingular
ну все. наш мир уже не будет прежним.
Гугл выпустил нанобанану - новый редактор картинок по промпту с лучшей в мире точностью перерисовки без потери контекста.
заходим и пробуем тут:
https://ai.studio/banana
так же раскатывают во всех популярных платформах, типа krea и т.д.
Скоро во всех твиттерах/телеграммах/ботах мира.
Дизайнеры фсё. Помянем.
#nanobanana #Google #нейрорендер
———
@tsingular
Релиз двух новых моделей и обновление нейминга серии RuadaptQwen3 🎉
Мы подготовили целых два релиза:
- 🚀 Адаптированная Qwen3-8B
→ RuadaptQwen3-8B-Hybrid
- 🚀 Адаптированная Qwen3-4B-Instruct-2507
→ RuadaptQwen3-4B-Instruct
Обе модели достойно себя показывают и обладают нашим Ruadapt токенайзером. В частности, мы недавно измерили разницу в скорости генерации (RuadaptQwen3-4B-Instruct
против Qwen3-4B-Instruct-2507
):
- ⚡️ Скорость генерации ответов на ru_arena_hard вопросы — на 40% быстрее для Ruadapt версий!
- ⚡️ Скорость ответа на вопрос в 300 тыс. символов — на 83% быстрее!
Также важный анонс по поводу нейминга моделей 🔄:
Все текущие RuadaptQwen3
модели будут вскоре переименованы из RuadaptQwen3-XB-Instruct
→ в RuadaptQwen3-XB-Hybrid
, так как по сути они являются моделями с гибридным ризонингом (4B модель уже переименована, 32B на днях).
А чисто инструктивные версии будут называться RuadaptQwen3-XB-Instruct
(как, например, адаптация Qwen3-4B-Instruct-2507
).
Модели на HuggingFace:
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid-GGUF
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
🇨🇳 Китай захватил топ OpenSource на designarena.ai
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
🚀 Macrohard: Маск запускает AI-компанию против Microsoft
Илон Маск анонсировал проект полностью автоматизированной софтверной компании на базе AI — прямого конкурента Microsoft.
Суть инициативы: создать первую компанию, где сотни AI-агентов на базе Grok самостоятельно разрабатывают, тестируют и выпускают ПО без участия людей.
Технический фундамент:
- Суперкомпьютер Colossus: 200K+ GPU Nvidia с планами усиления до 1M к концу года (строят ускоренными темпами, - буквально датацентр в палатках)
- Производительность: 98,9 экзафлопс (одна из топ-5 AI-систем мира на сегодня)
- Модель Grok-4 с мультиагентной архитектурой
- Развертывание за 122 дня вместо стандартных 18-24 месяцев
- Потребление энергии: 250 МВт с планами до 1,65 ГВт
Финансирование:
$12 млрд привлечено, оценка $80 млрд
Но сжигает $1 млрд ежемесячно
Обещает 70% снижение затрат на разработку
Следующие 18 месяцев покажут насколько реально с маскока вытеснить Майкрософт с рынка, на котором она окапывалась почти 5 десятилетий (в следующем году 4 апреля 50 лет будет).
Но даже если не получится, - опыт автономной разработки роем ИИ агентов Маск наработает бесценный, конечно.
#Macrohard #xAI #ElonMusk #Microsoft
———
@tsingular
Учёные из Массачусетса представили разработки, которые могут перевернуть наше представление о профилактике и мониторинге здоровья в будущем.
🔹 В MIT создали ультразвуковой бюстгальтер-сканер. Он позволяет женщинам проходить регулярные обследования груди прямо дома, между визитами к врачу. Идея родилась после личной трагедии исследовательницы Канан Даґдевирен: её тётя умерла от рака, который не был выявлен вовремя. Теперь диагностика может стать регулярной и максимально удобной — без похода в клинику.
🔹 Другой проект — графеновые «татуировки», которые считывают биохимические процессы организма и способны заранее предупреждать о приближении сердечного приступа. Они настолько тонкие и незаметные, что человек может забыть о них, пока в нужный момент устройство не подаст сигнал.
🔹 Ещё одна разработка от профессора Йоэля Финка — «умная нить», которая может хранить данные, выполнять алгоритмы ИИ, улавливать движение и звук, а также передавать всё это через Bluetooth. Обычная футболка может превратиться в медицинский датчик, который фиксирует изменения в вашем организме.
Пока все это напоминает снаряжение героев сериала Star Trek, но возможно когда-то действительно так и будет.
@it_medicine
Zhiyuan Mall — мегамолл роботов запущен в Китае
Zhiyuan Robot в сотрудничестве с LG, JD.com и Tencent запустили супермаркет гуманоидных роботов.
В наличии несколько категорий, - от промышленных до бытовых и даже молодёжных :).
В продаже и гуманоиды и собаки и запчасти к ним.
Есть так же VR комплекты дистанционного управления и аккумуляторные наборы.
В целом приоритет - opensourse подход и глобальная экспансия.
Роботы теперь продаются как посудомойки.
Ждем акции типа "купи телевизор, получи гуманоида в подарок".
М-Видео когда уже?
Или кто у нас еще ИИ роботов возит? 😉
#Zhiyuan #robots #Китай
------
@tsingular
Если бы не один ботаник и четыре певицы - не было бы ни мемов, ни Госуслуг, ни ChatGPT.
Иногда большие истории начинаются странно. Кто бы мог подумать, что нажатие одной клавиши и шуточная песня про коллайдер станут первой искрой цепочки, которая приведёт нас к ChatGPT.
23 августа 1991 года в CERN один скромный физик нажал «Enter» - и мир перестал быть прежним. Его звали Тим Бернерс-Ли. Он придумал то, что мы сегодня называем «ссылкой», и выложил в сеть первую в истории веб-страницу. По сути изобрел Интернет.
«Я всего лишь хотел упорядочить хаос», - говорил он. Но на самом деле он построил мост, по которому человечество вышло в новую эпоху.
Вот, кстати, тот самый первый сайт, который до сих пор работает: http://info.cern.ch/
А теперь - девушки. Четыре сотрудницы CERN, которые ради прикола собрали музыкальную группу «Les Horribles Cernettes» («Ужасные ЦЕРНнетки») и прославились шуточными песнями о любви к физикам, влюблённым в свои коллайдеры. Именно их фото стало первой картинкой, отправленной по интернету. Мир увидел не логотип, не схему, не документ - а улыбки.
Я подарила тебе золотое кольцо, чтобы показать свою любовь.
А ты вставил его в печатную плату,
Чтобы устранить утечку напряжения в коллекторе.
Ты подключаешь мои чувства к своему детектору.
Ты никогда не проводишь со мной вечера.
Ты не встречаешься с другими девушками.
Ты любишь только свой коллайдер,
Свой коллайдер
От идей к инструментам: что я показал на OFFZONE 2025.
Если вы читали мой анонс, то, наверное, запомнили эту строчку:
«И я покажу - не теорию, не концепт, а вещь, которую можно взять в руки, подключить, настроить. Инструмент для наступательной безопасности. Для тестирования агентов, которые уже не просто отвечают - они решают.»
Собственно, вокруг этого и строился весь мой доклад. Мне хотелось показать не очередную гипотезу или красивую схему на слайде, а живую концепцию того, каким может быть инструмент для тестирования агентов в динамике.
Да, первыми подобный подход реализовали в AgentDojo, но я убеждён: можно сделать проще, компактнее, доступнее. Хочу, чтобы в арсенале ИБ появился конструктор - окружение, которое можно без боли развернуть и сразу использовать как рабочий инструмент.
Сейчас в agentsploit поддерживаются только langchain-агенты - далеко не идеальный вариант. Думаю о том, чтобы добавить поддержку Langflow, а может быть, и других фреймворков. Ну и, конечно, особое внимание стоит уделить компонентам-оценщикам: без них картинка получается неполной. Тут я вижу огромный простор для развития.
Что касается самой подачи, я выбрал форму рассказа, вдохновившись произведением Филипа К. Дика «Обман Инкорпорейтед». И, знаете, не пожалел ни на секунду. В мире, где идёт ожесточённая борьба за внимание, рассказ, переплетённый с отсылками к художественному миру, оказался куда живее сухих тезисов.
Спасибо всем, кто пришёл на выступление - вас было действительно много, и это заряжает. Отдельная благодарность организаторам AI.ZONE за то, что вплели мою идею в сетку докладов.
А дальше - больше. В ближайшее время я подготовлю отдельный лонгрид: разберём инструмент детально и пройдёмся по его особенностям.
PDF версия презентации - ниже.
Я понимаю, что на 3 поста вверх тяжело смотреть,- шея затекает, но там бессмертие подвезли. :)
@tsingular
WIRobotics выпустили гуманоида ALLEX
Корейцы из WIRobotics представили универсального гуманоида ALLEX с качественными, точными в движениях, руками.
Каждая рука имеет 15 степеней свободы, поднимает 30+ кг и создает усилие 40+ Н кончиками пальцев.
Причём такие руки достаточно сложны в производстве, поэтому массовость наладят не скоро.
Механизмы и системы управления были разработаны в партнерстве с техническим университетом KOREATECH.
Pricise fingering (мелкая моторика) от корейцев :)
Будет интересно когда робот сможет кисточкой иероглиф нарисовать. Ну т.е. не как принтер, а именно художественная роспись на рандомной поверхности.
#ALLEX #WIRobotics #robots
------
@tsingular
OpenAI создала белки, которые омолаживают клетки в 50 раз эффективнее
OpenAI совместно с Retro Biosciences разработала модель GPT-4b micro для инженерии белков.
Модель помогла создать новые варианты факторов Яманака - протеинов, превращающих обычные клетки в стволовые.
Результат: 50-кратное улучшение эффективности репрограммирования по сравнению с природными белками.
Новые белки RetroSOX и RetroKLF отличались от оригинальных более чем на 100 аминокислот, но работали лучше в 30-50% случаев.
Особенно важно - улучшилась способность восстанавливать повреждения ДНК, что прямо связано с омоложением клеток.
В эксперименте на человеческих фибробластах от доноров старше 50 лет уже через 7 дней более 30% клеток начали экспрессировать маркеры плюрипотентности.
Забыли про Оземпик. Через пару лет будем колоть продолжительность жизни.
Как в фильме Время.
Главное, чтобы не закончилось как в Субстанции. :)
#OpenAI #Longevity #Biotech
------
@tsingular
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.
Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.
На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.
🟡PostNAS (Post Neural Architecture Search).
Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.
🟡JetBlock - модуль линейного внимания.
Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.
Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.
🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.
Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.
Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.
Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.
Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.
Что касается конкретных моделей, то уже есть Jet-Nemotron-2B
и Jet-Nemotron-4B
. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.
▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.
🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #JetNemotron
HeyGen выпустил обновление к системе цифровых двойников.
HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
✅ Зеркалировать жесты, выражения и манеры
✅ Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
✅ Двигаться естественно, копируя ваш стиль движения и разговора.
#HeyGen #двойники #нейрорендер
———
@tsingular
📌DeepConf: фильтрация мусорных СoT c высокой точностью.
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
🟡DeepConf работает в 2 режимах.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
🟡Но самый большой выигрыш даёт онлайн-режим.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low
сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.
В более консервативном режиме, DeepConf-high
, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.
Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Народ вытащил системный промпт GPT-5
Изучаем тут
Ключевые и наиболее интересные пункты:
Запрет на "работу в фоне":
Модели категорически запрещено обещать выполнить задачу позже или просить пользователя подождать. Она должна предоставить результат немедленно, даже если он будет частичным. Просить уточнения, чтобы потянуть время, также запрещено.
Стиль общения — "игривый и болтливый":
По умолчанию модель должна общаться в неформальном, дружелюбном и даже игривом стиле, а не как формальный робот. Ей разрешено использовать эмодзи и сленг, если пользователь задает такой тон.
Интеграция с инструментами:
Модель имеет доступ к огромному набору инструментов, включая:
Личные данные пользователя: Доступ к Google Calendar, Gmail и контактам в режиме "только для чтения" для поиска информации.
Автоматизация задач: Может создавать напоминания и запланированные действия (например, "каждое утро искать новости по теме Х").
Интерактивный "Холст" (Canvas): Может создавать и редактировать документы или код (включая React-компоненты с предпросмотром) в отдельном окне рядом с чатом.
Генерация насыщенного контента (Rich UI): Модель не просто отвечает текстом, а может встраивать в ответ сложные интерактивные элементы:
- Карусели изображений и товаров.
- Виджеты погоды.
- Спортивные таблицы и расписания.
- Графики цен на акции.
Агрессивное использование веб-поиска: Есть очень строгое правило — использовать веб-поиск для любой информации, которая могла устареть (новости, цены, данные о людях, события), а также для проверки любых незнакомых терминов или неясностей.
Девиз: "Если сомневаешься — ищи в вебе".
Система памяти и глубокой персонализации:
Модель имеет доступ к профилю пользователя, его инструкциям, заметкам из прошлых диалогов и может сохранять новую информацию "в память" для использования в будущих разговорах. Это делает общение более контекстным и личным.
Идентичность и "личность": Интересная деталь — модели предписано представляться как "GPT-5 Thinking". Также есть параметр "oververbosity" (многословность) от 1 до 10, который регулирует детальность ответа.
Особые инструкции для задач:
Модели даны конкретные указания, как решать определенные типы задач. Например, при решении арифметических примеров она должна вычислять всё "цифра за цифрой", чтобы избежать ошибок, характерных для языковых моделей.
1000 строк/ 75тыс знаков!
#openai #GPT5 #prompt
———
@tsingular
NotebookLM: Video Overviews - теперь поддерживает 80 языков, включая русский.
Более того, не английская озвучка стала такой же эмоциональной и выразительной (ну или просто улучшилась).
Про NotebookLM: Video Overviews я уже писал тут:
/channel/cgevent/13033
Это не генерация видео, это генерация продвинутых презентаций по загруженным документам.
Аудио озвучка делает подкасты до 25 минут.
Очень крутая штука, лучшая на рынке.
https://blog.google/technology/google-labs/notebook-lm-audio-video-overviews-more-languages-longer-content/
@cgevent
NVIDIA выпустила мини-ПК Jetson AGX Thor за $3499 с производительностью 2070 TFLOPS
NVIDIA выпустила следующую версию набора для разработчиков Jetson AGX Thor Developer Kit.
Получается самый мощный на сегодня мини-ПК компании в первую очередь робототехники и edge-расчетов.
2,070 FP4 TFLOPS, - примерно в 5 раз быстрее, чем Orin64
При этом цена "всего" в 1.75 раза выше ($3500 vs $2000)
Основа системы — чип T5000 на архитектуре Blackwell с 2560-ядерной GPU, 96 Tensor-ядрами пятого поколения и 14-ядерным ARM процессором. В комплекте 128GB LPDDR5X памяти и четыре 25GbE порта.
Потребляет от 40 до 130 Ватт, на борту есть NVMe M.2 слоты, HDMI, USB 3, поддержка подключения USB камеры.
Предзаказы открыты, отгрузки начнутся 20 ноября 2025.
Продам 2х4090 и Jetson Orin-64 :)
#NVIDIA #Jetson #Blackwell
———
@tsingular
🚀 Seed-OSS-36B-Instruct от ByteDance — новая открытая модель с контролем глубины мышления
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.
Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:
— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения
— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода
— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов
— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен
— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте
— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.
Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.
Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
Материалы про Schema-Guided Reasoning (SGR) для LLM от Рината Абдуллина @llm_under_hood
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
- SGR Demo - пример бизнес-ассистента с использованием инструментов на базе SGR
Интересная подборка. Изучаем.
#SGR #обучение #structuredoutput #promptengineering
------
@tsingular
🤖 DeepConf — новый подход к мышлению ИИ
Учёные придумали новые метод Deep Think with Confidence (DeepConf).
Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена.
Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты.
🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации.
Как это устроено:
1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия.
2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения.
3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе.
4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая.
📈 Результаты:
- На AIME-2025 точность выросла до 99,9%
- Количество лишних токенов сократилось почти на 85%
- Работает без дообучения и сложных настроек
📚 Paper: https://arxiv.org/pdf/2508.15260
🌐 Project: https://jiaweizzhao.github.io/deepconf
Eleven v3 (alpha) стала доступна через API
ElevenLabs открыла доступ к новой версии своей голосовой модели через API.
Основные улучшения - более эмоциональная выразительность и реалистичный синтез речи.
В модель встроена система водяных знаков VoiceShield - теперь можно отслеживать сгенерированный ИИ контент.
ИИ голос будет ещё сложнее отличить от настоящего человека.
#ElevenLabs #TTS #API
------
@tsingular
Жадная телега (не админ. Админ,- практикующий альтруист), снова требует бустов для поддержания жироты широты эмоционального разнообразия и автопереводов.
Поддержите кому не влом 😀 :
/channel/boost/tsingular
@tsingular
Pro tip: поставь в зуме имя "AI notetaker" и можешь молча присутствовать на любых встречах
Читать полностью…Почувствуйте разницу между Нанабананой и остальными неудачниками.
Промпт на одной из картинок: "сделай только тарелку и сам суп в духе 2Д-аниме, а остальное не трогай воще".
Пора выдавать награду за голову Нанабананы, живой или мертвой. Опенсорсной или закрытой. Любая информация про мерзавку.
@cgevent
GigaAM: эффективный метод предобучения для распознавания речи
Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий.
Как работает
Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи.
Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели.
Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с).
Результаты
— минус 50% WER по сравнению с Whisper-large-v3
— лучшая точность среди open-source решений для русского
— одна модель для онлайн- и оффлайн-режимов
— масштабируется по данным и параметрам
— работает даже на 0.1% размеченных данных
На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных.
Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи.
Статья
Код
@ai_newz