tsingular | Unsorted

Telegram-канал tsingular - Технозаметки Малышева

2604

Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb

Subscribe to a channel

Технозаметки Малышева

Ну, за продакшен и постпродакшен!

Пусть это видео сделает ваш день.

Все наши шутки про кнопку "сделать красиво" наконец-то обрели визуальную форму. И какую! Красную и прекрасную.

Это невыносимо хорошо.

P.S. Нанабанана для главного персонажа, и Veo3.1 для генерации видео.
Подробности тут:
https://www.linkedin.com/posts/simon-meyer-976339160_making-films-with-ai-is-so-easy-i-made-this-activity-7419317105386356736-1qoV/

Автор: https://www.instagram.com/simonmeyer_director/

@cgevent

Читать полностью…

Технозаметки Малышева

👀 Vxunderground отмечают удивительное: OSINT-исследователь под ником "Harrris0n" создал специальный мини-проект Firehound, взявшись за крайне трудоёмкую задачу, а именно выявление "ИИ-шлака" в магазине приложений Apple App Store.

🚰🚰🚰🚰 На момент написания поста было выявлено 198 iOS-приложений, которые в той или иной форме допускают ↔️ утечку пользовательских данных. Неудивительно, что лидирующие позиции занимают приложения, так или иначе связанные с ИИ — различные чат-боты и ИИ-помощники.

На первом месте по объёму утечек сейчас находится приложение «Chat & Ask AI by Codeway». Оно раскрыло информацию о 18 миллионах пользователей, включая:

🔻имя;
🔻адрес электронной почты;
🔻дату создания учётной записи;
🔻сообщения (отправленные, полученные, содержание и метаданные);
🔻голосовые чаты

Все сообщения, которые вы когда-либо отправляли через это приложение, остаются незащищенными.

Подумайте о том, в чем люди признаются искусственному интеллекту — проблемы с психическим здоровьем, трудности в отношениях, финансовые проблемы, медицинские вопросы, вещи, о которых вы никогда бы не рассказали другому человеку.

А теперь представьте, что все это связано с вашей электронной почтой и номером телефона и доступно любому.

Разработчики должны понести ответственность за такой уровень халатности.

— комментирует Harrris0n.

Фактически всё, что вы когда-либо сообщали этому ИИ-боту, оказалось доступным извне. Речь идёт более чем о 400 000 000 сообщений. В слитых переписках содержится абсолютно всё, о чем люди говорили с ботами.

Следом в так называемом «шлак-метре» идёт приложение «YPT — Study Group», которое на данный момент раскрывает данные более чем 2 миллионов пользователей, включая:

🔻ИИ-токены;
🔻идентификаторы пользователей;
🔻пользовательские ключи;
🔻переписку (отправленную, полученную, содержание).

Исследователь отметил, что сливается всё: от обсуждения образования и фитнеса до шокирующих вещей, таких как переписки CSAM (детская порнография) и странных трендов вроде «LooksMaxxing» (улучшение внешности).

😱 Юзеры в комментариях к посту про Firehound критикуют Apple и Google за то, что они допускают такой "дырявый софт" в свои магазины.

Разработчики массово клепают небезопасные приложения-обертки для ИИ («мусорный софт»), а в результате утекают самые интимные переписки и личные данные миллионов людей.

Перед нами бесконечная чёрная дыра персональных данных. Речь идёт не только об именах и адресах электронной почты, но и о частных, интимных диалогах пользователей с ИИ-агентами.

Не могу не подчеркнуть: НЕ ДОВЕРЯЙТЕ VIBE КОДЕРАМ. НЕ ДЕЛАЙТЕ ЭТОГО. ИИ-КОД НЕБЕЗОПАСЕН. НЕ ДЕЛАЙТЕ ЭТОГО. ПРЕКРАТИТЕ ЭТО.

Это и есть
🤖«помойкоапокалипсис».

— комментируют VX.

✒️ Ознакомиться с мусором можно тут: https://firehound.covertlabs.io

@Russian_OSINT

Читать полностью…

Технозаметки Малышева

Qwen3-TTS: синтез речи с клонированием голоса

Alibaba выкатила Qwen3-TTS — семейство моделей для синтеза речи с поддержкой русского.

В коллекции шесть вариантов:
- Base модели (0.6B и 1.7B) — базовый синтез
- CustomVoice — клонирование голоса по образцу
- VoiceDesign — генерация голоса по текстовому описанию

Все модели работают на 12Hz частоте акустических токенов — это ~83мс на токен, примерно один фонем.
Такая низкая частота экономит вычисления, но может терять детали в сибилянтах и палатализованных согласных (важно для русского).

Китайцы методично закрывают все модальности.

#Qwen #TTS #Китай
------
@tsingular

Читать полностью…

Технозаметки Малышева

Microsfot OptiMind: малая модель для задач оптимизации

Microsoft Research выпустила OptiMind — модель на 20B параметров, которая переводит описания бизнес-задач в математические формулы для солверов оптимизации.

Проблема заключалась в том, как превратить задачу типа "оптимизации цепочки поставок" в код для Gurobi. Обычно это занимает у экспертов несколько дней или даже недель.

Решение: модель сначала классифицирует задачу (расписание, маршруты, сети), затем применяет подсказки экспертов для этой категории и генерит решение через код на Python с подключённо библиотекой Gurobi.

Обучали на очищенных данных OR-Instruct и OptMATH — исходные бенчмарки содержали 30-50% ошибок, которые вручную исправили.

Точность выросла на ~10% по сравнению с базовой моделью.

Модель доступна через HuggingFace и GitHub.

Для комфортной работы нужно ≥32GB видеопамяти и лицензия на Gurobi библиотеку.

#OptiMind #Gurobi #Microsoft
———
@tsingular

Читать полностью…

Технозаметки Малышева

Компании, выставляющие гуманоидных роботов на CES 2026(6-9 января 2026):

Unitree 🇨🇳
Deep Robotics🇨🇳
AgiBOT 🇨🇳
LimX Dynamics🇨🇳
Daimon Robotics🇨🇳
Beijing Humanoid Robot Innovation Center🇨🇳
NOETIX Robotics🇨🇳
GalBOT🇨🇳
EngineAI🇨🇳
Fourier🇨🇳
MagicLab🇨🇳
UniX AI🇨🇳
KEENON🇨🇳
RobotEra🇨🇳
PNDbotics 🇨🇳
Booster Robotics 🇨🇳
BXI Robotics 🇨🇳
Ti5robot🇨🇳
Realman 🇨🇳
Paxini 🇨🇳
Astardust Robotics🇨🇳
Realbotix 🇺🇸
Starbot🇺🇸
Agility Robotics🇺🇸
Amazon Robotics 🇺🇸
IntBot 🇺🇸
Hyundai Group - Boston Dynamics 🇰🇷
WIRobotics🇰🇷
ROBOROS🇰🇷
Frada Dynamics 🇰🇷
AeiROBOT 🇰🇷
LG (releasing CLOiD home humanoid robot)
AVITA🇯🇵
Hexagon🇩🇪
Humanoid🇬🇧
Enchanted Tools🇫🇷

Будем посмотреть под новогодние салатики. :)

#CES #роботы
------
@tsingular

Читать полностью…

Технозаметки Малышева

Полная версия Снегурочки.

Если вдруг кто еще не видел.

Автор

Пишут, что уже и на Яндекс.Музыке есть.
Значит вопрос с правами улажен.

Эпоха нейроартистов растёт на наших глазах.

#снегурочка #клипы #нейрорендер
------
@tsingular

Читать полностью…

Технозаметки Малышева

Алгоритм определит успех вашей карьеры

Университет Пенсильвании обучил модель определять черты личности и прогнозы на карьеру по фотографиям из профилей LinkedIn выпускников MBA.

Прогнозирование успеха: Исследование показало, что личностные качества, определенные ИИ ("Photo Big 5"), способны предсказывать ряд ключевых карьерных показателей:

- Рейтинг бизнес-школы: Определенные черты личности коррелируют с вероятностью поступления в более престижные учебные заведения. Например, добросовестность положительно связана с рейтингом школы, а экстраверсия — отрицательно.

- Заработная плата: Личностные качества оказывают значительное влияние на начальную зарплату и ее рост. Для мужчин разница в зарплате между теми, кто находится в верхнем и нижнем квинтиле по "желательным" чертам, составляет 4,3%, что сопоставимо с расовым разрывом в оплате труда. Для женщин этот показатель еще выше — 4,7%.

- Должностной рост и текучесть кадров: Такие черты, как добросовестность и доброжелательность, снижают текучесть кадров, в то время как экстраверсия и нейротизм ее увеличивают.

Дополнительная ценность: "Photo Big 5" имеет лишь слабую корреляцию с традиционными когнитивными показателями (GPA, результаты тестов). Это означает, что ИИ-анализ личностных качеств дает дополнительную информацию, которую нельзя получить из академической успеваемости, и обладает самостоятельной прогностической силой.

Стабильность метода: Точность оценок личностных качеств остается высокой даже при сравнении фотографий из выпускных альбомов MBA и более поздних снимков из LinkedIn, сделанных в среднем на 8 лет позже.

Фраза "мордой не вышел" заиграла новыми красками.
Измерение черепа переизобрели, короче.

#FacialRecognition #Hiring
———
@tsingular

Читать полностью…

Технозаметки Малышева

Anthropic зафиксировали первый официальный случай крупной кибератаки, выполненной с помощью ИИ. Стартап утверждает, что за операцией стоит китайская государственная группировка.

По данным Anthropic, это был даже не единичный случай, а целая кибершпионская кампания, целью которой были около тридцати организаций по всему миру. Среди них бигтех, финансовые институты, хим.производства и государственные агентства.

Преступники использовали Claude Code и "агента на основе Claude". Модельку джейлбрейкнули, попросив ее выполнять мелкие задачи без раскрытия истинной цели и убедив, что она работает для легальной фирмы кибербезопасности.

Ну а дальше все как по маслу. Модель провела разведку инфраструктуры целевой организации, написала эксплойты, получила нужные доступы, создала бэкдоры, украла данные и даже услужливо написала по всему этому подробную документацию 😍

По оценке Anthropic, вмешательство человека во всем этом требовалось 4-6 раз: преступники автоматизировали всю деятельность на 90%. Отловить атаку удалось благодаря тому, что аналитики заметики подозрительную активность и тут же запустили расследование.

Большиство запланированных атак, по словам стартапа, удалось предотвратить, и все же преступники «успешно компрометировали небольшое число случаев».

Вот вам и весь хваленый элаймент 🤠

Читать полностью…

Технозаметки Малышева

UBTECH Walker S2

У китайских товарищей заказов уже под на $100 млн на этот год

Не спотыкаются.

- звук затвора.
- сегодня мы куда?
- ну не на завод же. бгг

#UBTECH #Walker #Китай
------
@tsingular

Читать полностью…

Технозаметки Малышева

n8n добавили Guardrails-ноды для защиты ИИ-агентов

В n8n 1.119.0 появились Guardrail-ноды — фильтр входов и выходов для ИИ-агентов.

Защищает от вредных запросов (джейлбрейки, NSFW, PII) и проверяет ответы модели перед отправкой пользователю.

Две операции:
- Check Text for Violations — проверка текста по набору правил
- настройка порогов срабатывания (0.0–1.0) для каждого типа нарушений

LLM-based проверки (джейлбрейк, токсичность, топик-алайнмент) требуют подключения Chat Model-ноды. Дефолтные пресеты взяты из openai/openai-guardrails-js.

Можно кастомизировать промпты и добавлять свои regex-правила.

Полезно для продакшена, где нужна цепочка валидации: user → guardrail → LLM → guardrail → output.

Мне нравится подход n8n в разработке.
Сначала строят дом, потом асфальтируют тропинки, которые протаптывают жильцы.

Обновляемся, пробуем

#n8n #Guardrails #cybersecurity
———
@tsingular

Читать полностью…

Технозаметки Малышева

🤖 Курс по мультиагентным системам с CrewAI: от прототипа до боевого запуска

DeepLearning.AI выкатил полноценный курс по построению агентных систем на базе Crew.AI.
Не просто "hello world", а путь от концепта до работающих решений в продакшне.

Техническая начинка:
- LLM + задачи + агенты + команды + потоки — полный стек агентной архитектуры
- Оценка производительности мультиагентных систем
- Оркестрация агентов через потоки
- Управление памятью и знаниями
- Ограничители и хуки выполнения
- Model Context Protocol (MCP)
- Мониторинг и наблюдаемость в боевых условиях
- CI/CD для агентов — автоматизация развёртывания

Практические сценарии использования агентов из курса:
- Подготовка к встречам — парсит почту, изучает собеседника, генерит брифинг
- Глубокое исследование — многоступенчатый поиск с самостоятельным уточнением запросов
- Автоматический ревью кода с улучшениями
- Визуальная сборка агентов без кода

Важный момент: путь от концепта до прототипа обычно не быстрый. А от прототипа до прода, - еще длиннее.

Курс учит думать об этом с самого начала, чтобы не переписывать всё на этапе масштабирования.

Кому зайдёт:
- Разработчикам — научиться строить агентные системы правильно
- Продактам — понять возможности и ограничения агентов
- Бизнесу — приоритизация сценариев для внедрения

Язык курса - английский.
Сам курс бесплатный. Платная подписка нужна только для получения сертификата.

#CrewAI #Агенты #DeepLearningAI #обучение
———
@tsingular

Читать полностью…

Технозаметки Малышева

ElevenLabs Scribe v2 Realtime: STT с задержкой менее 150 мс

ElevenLabs выкатили Scribe v2 Realtime — модель Speech-to-Text для голосовых агентов, ассистентов на митингах и субтитров в прямом эфире.

Задержка менее 150 мс, поддержка 90+ языков, точность 93.5% по 30 популярным языкам.
Особенность — «отрицательная задержка»: система предсказывает следующее слово и пунктуацию до того, как человек закончит говорить.

Тестили на 500 сложных сэмплах с шумом и запутанной информацией — обогнала конкурентов.
Автоопределение языка, детекция голоса, контроль сегментов транскрипции.

Корпоративная готовность: SOC 2, GDPR.
Доступна через API, встроена в ElevenLabs Agents.

Предсказывает слова до того, как ты их произнёс. Это уже не про распознавание речи, это уже про чтение мыслей с небольшой задержкой -150 мс. :)

#ElevenLabs #ScribeV2 #SpeechToText
------
@tsingular

Читать полностью…

Технозаметки Малышева

Янн ЛеКун покидает Meta ради стартапа по world models

Янн ЛеКун, главный учёный Meta* по ИИ и лауреат премии Тьюринга, планирует уйти из компании в ближайшие месяцы, чтобы создать стартап, сфокусированный на world models — системах, которые работают через моделирование причинно-следственных связей.

Уход происходит на фоне хаоса в подразделении Meta: компания вложила $14.3 млрд в Scale AI и переманила 50+ специалистов из конкурентов, создав новую структуру Meta Superintelligence Labs. Старая команда FAIR, где работал ЛеКун над долгосрочными исследованиями (5-10 лет), оказалась в тени после того, как Llama 4 не смогла конкурировать с моделями OpenAI и Anthropic и даже моделями из Китая.
Многие давно уже с Llama перешли на тот же Qwen.

При этом ЛеКун открыто скептичен насчёт текущих LLM: "Прежде чем думать о контроле сверхразумных систем, неплохо бы создать систему умнее домашней кошки" (Twitter).

*запрещенная организация, признанная в РФ террористической

#LeCun #Meta
------
@tsingular

Читать полностью…

Технозаметки Малышева

Grok Imagine обновился до версии - 0.9

Теперь поддерживает разные форматы картинок, как исходник, а не только вертикальное как раньше.

Повысилось качество генерации и физическая точность.

Появился голос и музыка.

Ключевая фишка, - это все бесплатно в рамках платформы x.com

Я то думаю что это он так клёво ролики начал генерить последние дни :)

в РФ не работает. Нужны средства телепортации в зарубежное инфопространство.

#Grok #Imagine
———
@tsingular

Читать полностью…

Технозаметки Малышева

🌍 Omnilingual ASR: распознавание речи для 1600+ языков

Meta* выкатила ASR-систему для 1600+ языков, включая 500, у которых вообще раньше не было технологий распознавания речи.

Главное,- любой может добавить свой язык с 5-10 аудиопримерами.
Без ML-экспертизы, без датасетов.

Как это работает:
Система обучена на контекстных примерах. Даёшь ей несколько пар "аудио-текст" на неизвестном языке → она понимает паттерн и транскрибирует новые записи. Классический few-shot learning, но для речи.

Техника:
- 4.3М часов аудио на обучение
- Модели от 300M (для смартфонов) до 7B параметров
- CTC-варианты работают в 16-96 раз быстрее реального времени
- LLM-варианты точнее на 40-50% за счёт контекстного декодера

Результаты в сравнении с Whisper v3:
- Win rate 80% на FLEURS (65 из 81 языка). - Даже самая маленькая модель (300M) обгоняет Whisper large на большинстве бенчмарков.

CER в районе 1%!

Что даёт на практике:
- Лингвисты могут документировать редкие и исчезающие языки — дал 5 примеров, получил рабочий транскрибатор
- Стартапы в Африке/Азии запускают голосовые сервисы без сбора датасетов
- EdTech делает обучение на родных языках без найма специалистов по каждому диалекту

Модели, датасеты, код — всё открыто.

Apache 2.0


Github
Paper

*Meta - запрещённая в РФ организация, признанная террористической

#OmnilingualASR #Meta #OpenSource
———
@tsingular

Читать полностью…

Технозаметки Малышева

Наткнулся в сети, говорят полезное :)

DDD — Domain-Driven Design
Область применения: проектирование архитектуры проектов с учётом контекста

Суть подхода: архитектура системы строится вокруг предметной области бизнеса. Структура кода отражает реальные бизнес-процессы и сущности.

Как использовать с ИИ:
Опишите доменную модель — ключевые сущности, их связи и бизнес-правила
Передайте эту модель ИИ-ассистенту как контекст
Генерируйте код, который соответствует установленной доменной структуре

TDD — Test-Driven Development
Область применения: написание кода с помощью нейросети
Суть подхода: сначала пишутся тесты, затем код, который эти тесты проходит.

Как использовать с ИИ:
Напишите тесты, описывающие ожидаемое поведение
Передайте тесты ИИ-ассистенту
Попросите сгенерировать код, проходящий эти тесты
Проверьте результат, при необходимости уточните требования

Преимущества: тесты служат чёткой спецификацией и позволяют автоматически проверить корректность сгенерированного кода.

SDD — Spec-Driven Development
Область применения: совместная работа человека и нейросети
Суть подхода: разработка через детальные спецификации. Спецификация становится «контрактом» между человеком и ИИ.

Как использовать с ИИ:
Составьте детальную спецификацию — что система должна делать, какие входы и выходы, граничные случаи
Согласуйте спецификацию с ИИ-ассистентом — попросите уточнить неясные моменты

Передайте спецификацию для реализации
Сверяйте результат со спецификацией

Форматы спецификаций: OpenAPI/Swagger для API, JSON Schema для структур данных, user stories для функциональности, диаграммы для архитектуры.

Готовые скиллы для CC качать тут

фидбэк приветствуется

#skills #dev #DDD #TDD #SDD
———
@tsingular

Читать полностью…

Технозаметки Малышева

Runway выкатили новую Image 2 Video модель:

Gen 4.5

Пробуем тут:
https://app.runwayml.com/

#Runway #нейрорендер
------
@tsingular

Читать полностью…

Технозаметки Малышева

PersonaPlex: голос и роль в реальном времени

NVIDIA выкатила PersonaPlex — речевую модель на 7 миллиардов параметров, которая одновременно слушает и говорит.

Работает в режиме полного дуплекса: можно перебивать, вклиниваться, перекрывать — как в живом диалоге.

Перед стартом беседы задаются два промпта: голосовой (аудио токены) и текстовый (роль, контекст). Вместе они определяют личность и манеру речи.

Обучалась на Fisher English — менее 10 тысяч часов телефонных разговоров, плюс синтетика.

Тестировалась на FullDuplexBench: задержка на прерывание — 0.24 секунды, на смену реплик — 0.17 секунды.

Превосходит Moshi и Gemini Live по скорости реакции.

Коммерческая лицензия от NVIDIA, работает через PyTorch.

Хочется русскую версию, конечно.
Просто послушайте!

170мс решают,- звучит фантастически!
Смех только криповый 😀

#PersonaPlex #NVIDIA #FullDuplex
------
@tsingular

Читать полностью…

Технозаметки Малышева

SharpaWave, - новые кисти от производителя роботов Sharpa

Ловкость и точность рук всё выше и выше.

Хейтеры опять скажут, - бесполезное :)

#Sahrpa #руки #CES2026
———
@tsingular

Читать полностью…

Технозаметки Малышева

SketchUp AI: генерация 3D моделей и текстур + персональный ассистент

Trimble запустил SketchUp AI — набор инструментов для 3D-моделирования и визуализации.

В пакет входят два модуля:
- AI Render (бывший SketchUp Diffusion) превращает модель + текстовый промпт в фотореалистичные картинки за секунды. Есть inpainting, референсные изображения и негативные промпты.
- AI Assistant генерирует 3D-объекты из текста или картинки прямо в редакторе.

Осталось только чтобы он еще саму архитектуру с инженеркой научился собирать и будет огонь.

#SketchUp #Trimble #3DModeling
———
@tsingular

Читать полностью…

Технозаметки Малышева

Cognition: Не делайте мультиагентов

Команда Cognition (создатели Devin) поделилась болью: мультиагентные системы в 2025 году работают хуже, чем однопоточные.

Причина — контекст. Когда несколько агентов работают параллельно, они принимают противоречивые решения. Один агент рисует птичку в стиле пиксель-арт, второй фон — в реализме. Результат: каша.

Исследование UC Berkeley подтверждает: 41-86% задач проваливаются в мультиагентных фреймворках (MetaGPT, ChatDev). 36.9% сбоев — из-за рассинхронизации между агентами.

Cognition предлагает решение: один агент + отдельная LLM для сжатия истории. Убирает 70-77% контекста, сохраняя суть. Стоимость падает на 21-36%, точность растёт.

Галя! У нас отмена! :)

(статья июньская. привожу чисто справочно, что есть разные взгляды на мультиагентность. не принимать как руководство к действию)

#Cognition #Devin #агенты
———
@tsingular

Читать полностью…

Технозаметки Малышева

В MIT научили LLM самостоятельно формулировать и запоминать новые знания

Исследователи из MIT создали метод SEAL, который позволяет языковым моделям постоянно обновлять свои веса и усваивать новую информацию.

Как у студента со шпаргалками: LLM генерирует несколько вариантов синтетических данных из входящего запроса, тестирует каждый и выбирает лучший через reinforcement learning. Потом запоминает его, обновляя внутренние параметры.

Цифры:
- +15% точность на вопросах-ответах
- +50% на задачах обучения навыкам
- маленькая модель обогнала GPT-4.1 (46.3% точность)

Модель сама выбирает скорость обучения и стратегию оптимизации. Проблема одна — catastrophic forgetting: усваивая новое, забывает старое.

Limitations
While SEAL enables lasting adaptation through self-generated weight updates, our continual learning experiment reveals that repeated self-edits can lead to catastrophic forgetting—performance on earlier tasks degrades as new updates are applied.


Пока что работает в исследовательских условиях, но потенциал для самообучающихся агентов очевиден.

paper

Студент, который сам себе делает шпаргалки и сам решает, как их учить. Осталось научить не забывать экзамены прошлого семестра.

#SEAL #MIT #SelfAdapting #саморазвитие #эволюция
------
@tsingular

Читать полностью…

Технозаметки Малышева

ИИ в Google Colab теперь будет доступен бесплатным пользователям 🕺

К моделям уже можно обратиться двумя способами:

1. Через библиотеку google.colab.ai, которую сделали открытой для всех пользователей. Прямо в ячейке прописываете from google.colab import ai, и затем можете:

– Просмотреть все доступные вам модели:

ai.list_models()

Сгенерировать что-нибудь:

response = ai.generate_text("2+2?", model_name = 'google/gemini-2.0-flash-lite')
print(response)


– Или стримить ответ:

stream = ai.generate_text("Tell me a short story.", stream=True)
for text in stream:
print(text, end='')


2. Через новую кнопку «Add AI prompt cell», которая теперь расположена рядом с кнопкой +Code. Тут уже никакой код писать не надо, система сама предложит вам готовую ячейку с интерфейсом для написания промпта.

Из моделей и там и там бесплатным пользователям будут доступны gemini-2.5-flash и gemini-2.5-flash-lite.

🍯

Читать полностью…

Технозаметки Малышева

Baidu ERNIE 5.0: новая версия в топе лидерборда

Baidu выкатила ERNIE-5.0-Preview и заняла #2 в LMArena. (на 1м месте 3 модели, 2е место делят 4 модели)

Модель содержит 2.4 триллиона параметров, работает с текстом, изображениями, аудио и видео.

Заточена под мультимодальность, логику, память и креативное письмо.

Параллельно анонсировали свои чипы Kunlun M100 (инференс, начало 2026) и M300 (тренировка и инференс сверхбольших моделей, начало 2027).

Попробовать можно тут:
https://ernie.baidu.com/

#ERNIE #Baidu #Kunlun #Китай
———
@tsingular

Читать полностью…

Технозаметки Малышева

🔥 Google готовит к релизу по-настоящему думающую ИИ модель

На AI Studio появилась загадочная модель в A/B тестировании.
Скорее всего это Gemini 3.0, которая должна выйти в ближайшее время.

Историк Марк Хамфрис тестировал её на рукописях XVIII века и обнаружил две вещи:

- Распознавание рукописного текста на уровне эксперта-человека
- Спонтанное логическое мышление — без просьб и подсказок

Качество распознавания:
- 0.56% ошибок по символам (без учёта пунктуации)
- 1 ошибка на 200 символов
- На 50-70% точнее Gemini 2.5 Pro

Но настоящий прорыв — в логике:
Модель расшифровывала торговую книгу 1758 года.
В записи о сахаре стояло "145" без единиц измерения.

Что сделала модель сама:
- Заметила несостыковку
- Увидела цену: 1 шиллинг 4 пенса = 16 пенсов за фунт
- Взяла итоговую сумму: 0/19/1 = 229 пенсов
- Посчитала: 229 ÷ 16 = 14.3125
- Перевела в фунты и унции: 14 фунтов 5 унций
- Исправила транскрипцию

Многоступенчатая конвертация между двумя недесятичными системами (деньги + вес), которую никто не просил делать.

Почему это важно:
Языковые модели обычно всего лишь предсказывают следующий токен по вероятности.
Они не должны уметь в символическую логику!

Но модель:
- Обнаружила проблему
- Построила цепочку рассуждений
- Применила исторический контекст XVIII века
- Проверила себя обратным расчётом

Текущие модели Gemini 2.5 Pro и GPT-5 Pro даже с подсказками выдумывают дополнения типа "145 фунтов" или "1 фунт 5".

Новая модель даёт правильный ответ с первой попытки.

Спонтанное мышление:
Модель не программировалась на символические вычисления. Способность рассуждать возникла сама из масштаба и сложности обучения.

Т.е. еще раз, - там нет фреймворка вроде Курсора в бэкэнде. Это чисто работа модели.

Если это будет в релизе, - мы увидим фундаментальный сдвиг: истинное мышление может возникать не из явных правил, а из размера модели.

Это позволит:
Историкам распознать старинные архивы автоматически с правильным пониманием контекста
Медицине - расшифровать врачебные записи с логическими выводами
Финансам - проанализировать старые бухгалтерские книги
В общем в любой области, где нужна визуальная точность + экспертное рассуждение будет значительный прогресс.

Ждем, готовимся :)

#Google #Gemini3
———
@tsingular

Читать полностью…

Технозаметки Малышева

Макконахи и Кейн продали голоса ElevenLabs

И еще про ElevenLabs - голливудские звёзды подписали сделку с ElevenLabs на оцифровку и использование своих голосов.

Макконахи инвестировал в компанию и теперь его рассылка переводится на испанский его же AI-голосом.
Кейн отдал права на легендарный голос в новый маркетплейс Iconic Voices.

В каталоге уже есть ушедшие звезды: Джон Уэйн, Джуди Гарленд, плюс исторические личности вроде Амелии Эрхарт и Алана Тьюринга.

Не только у джунов-разрабов ИИ отбирает работу, но и у актеров, получается.
Ведь если старые актеры не будут уходить, - меньше места будет для молодёжи.
А как им зарабатывать?

#ElevenLabs #VoiceCloning #McConaughey
———
@tsingular

Читать полностью…

Технозаметки Малышева

Ну, не Фёдор, конечно :)

#Unitree #Китай
——-
@tsingular

Читать полностью…

Технозаметки Малышева

Выход Нанобананы 2 обещают уже сегодня, хотя еще и не Рождество.

Разведка в восторге.

#nanobanaba #Google
———
@tsingular

Читать полностью…

Технозаметки Малышева

Google ADK Python 1.18.0: Visual Agent Builder

Если вы откладывали попробовать ADK, - настало самое время.

Google выкатил релиз ADK Python 1.18.0 с главной фичей - Visual Agent Builder.

Теперь можно создавать и редактировать агентов как в n8n - просто рисуешь схему агентов и настраиваешь через текст.

В релизе так же добавили:
- Callback-менеджмент для всех типов колбэков (до/после вызова агента, модели, инструмента)
- Vertex AI Express Mode для деплоя Agent Engine
- Gemini API docs как новый источник данных для агента по документам
- Улучшенные примеры агентов с output schema и поддержкой инструментов

#ADK #VisualBuilder #Google
———
@tsingular

Читать полностью…

Технозаметки Малышева

Готовимся к зиме :)

#нейрорендер #участок
------
@tsingular

Читать полностью…
Subscribe to a channel