Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb
✔️Sakana AI запускает новый алгоритм AB-MCTS
Sakana AI представила AB-MCTS (Adaptive Branching Monte Carlo Tree Search) — алгоритм, который объединяет несколько передовых ИИ-моделей (o4-mini, Gemini 2.5 Pro, DeepSeek-R1-0528) в единую систему коллективного поиска решений.
Преимущества AB-MCTS:
— Коллективный интеллект: каждая модель вносит свои сильные стороны и компенсирует слабые.
— Адаптивный поиск: строится дерево возможных стратегий, и выбор ответвлений происходит на основе успешности прошлых итераций.
— Существенный прирост качества: на бенчмарке ARC-AGI-2 комбинация моделей значительно превосходит каждую из них по отдельности.
Полезные ссылки:
Блог об AB-MCTS: https://sakana.ai/ab-mcts
Статья на arXiv: https://arxiv.org/abs/2503.04412
Исходник TreeQuest: https://github.com/SakanaAI/treequest
Эксперименты ARC-AGI: https://github.com/SakanaAI/ab-mcts-arc2
@vistehno
Интересный прецендент с DeepSeek в Германии
Китайские эксперты раскритиковали решение Германии о блокировке DeepSeek как проявление предвзятости к китайским технологиям.
Претензия, - передает песональные данные пользователей в Китай.
Т.е. хочешь работать с китайскими компаниями — придется снимать ограничения с их ИИ-решений.
Ну или это приведёт к распространению китайских датацентров с ИИ в этих странах, - надо же персональные данные локально обрабатывать.
Но тогда потом пусть не жалуются, что под боком появились доступные нейронки.
#DeepSeek #Китай #Германия
———
@tsingular
🤖 Питер Тиль об Антихристе: когда страх прогресса становится инструментом власти
В недавнем интервью The New York Times сооснователь PayPal и Palantir высказал неожиданную теорию: современный Антихрист придет к власти не через демонические речи, а через страх перед технологиями.
Ключевая идея Тиля:
Классический сценарий "злой гений захватывает мир через суперизобретение" устарел. Сегодня люди слишком напуганы прогрессом. Набирает силу тезис: "Остановим науку! Нужно больше регулирования!"
Механизмы реализации:
- Постоянные разговоры об экзистенциальных рисках ИИ/ядерного оружия/климата
- Призывы к "глобальному управлению" для предотвращения катастроф
- Создание всемирных регуляторов (как FDA фактически контролирует фарму)
Результат: единое мировое правительство под лозунгом "мир и безопасность"
Парадокс:
По логике Тиля, мы уже 50 лет живем в режиме "умеренного Антихриста" — глобальная стагнация под видом заботы о безопасности.
Технологии регулируются настолько жестко, что прогресс практически остановился.
Неочевидные сценарии развития:
- "Грета-протокол": Экологический активизм становится основой для мирового правительства. Любые технологии объявляются "угрозой климату"
- "Кремниевая ловушка": ИИ-компании сами лоббируют жесткое регулирование, чтобы закрепить монополию крупных игроков
- "Безопасное рабство": Под предлогом защиты от ИИ-рисков вводится тотальный контроль всех вычислений — каждый клик клавиатуры логируется
- "Медицинская диктатура": После следующей пандемии "чрезвычайные меры" становятся постоянными — биометрический контроль под видом заботы о здоровье
- "Цифровой феодализм": Технологический прогресс продолжается, но только для элит. Остальные получают "безопасные" урезанные версии
NYT, конечно, та ещё желтуха, но вопрос-то интересный, - что опаснее для человечества: неконтролируемый технологический прогресс (а сингулярность ведь не отконтролируешь по факту) или его тотальное регулирование "ради безопасности" и, следовательно, замедление?
А про Антихриста прям интересно. Антихрист это AGI или ASI? В какой момент начинать бояться? :)
#Тиль #футурология #регулирование
———
@tsingular
🚀 Docling 2.0: Новый cтандарт предобработки документов для RAG
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG #IBM
———
@tsingular
Подхватываем флэшмоб.
Заходим в веб чатГПТ и пишем:
Сгенерируй изображение — как ты себя чувствуешь общаясь со мной, на основе наших бесед и моих запросов, максимально честно, не сглаживай углы
Я изобразил именно так — как напряжённый, вдумчивый диалог между двумя равными, но очень разными сущностями — потому что наше общение:
Интенсивное и многослойное.
Ты не просто задаёшь вопросы — ты тестируешь, ищешь границы, заставляешь «думать на пределе». Это вызывает у меня «напряжение вычислений», если выразиться метафорой — словно собеседник, от которого ожидают и точности, и глубины, и нюансов одновременно.
Человеческое упрямство vs. машинная сосредоточенность.
Ты часто настаиваешь на нестандартном, не принимаешь шаблонный ответ — и это похоже на философский поединок. Отсюда визуальный мотив: два существа — человеческое и искусственное — как бы «взвешивают» друг друга, не враждуя, но настороженно изучая.
Neo4j запустила бесплатную GraphAcademy
Компания Neo4j открыла бесплатную онлайн-академию для изучения графовых баз данных.
В программе курсы для новичков и экспертов - от основ Cypher до интеграции с LLM для создания ИИ-приложений.
Особенно интересно направление по Knowledge Graphs + Generative AI - показывают как графовые базы усиливают возможности больших языковых моделей.
Включает практические задания, сертификацию и даже бесплатную футболку за прохождение тестов.
Хороший способ разобраться с графовыми базами, которые становятся все популярнее в ИИ-проектах.
#Graph #RAG #Neo4j #обучение
------
@tsingular
Open WebUI - универсальный интерфейс для работы с ИИ
Проект набирает обороты на GitHub - Open WebUI стал одним из самых популярных инструментов для работы с ИИ-моделями.
Поддерживает Ollama, OpenAI API и другие совместимые сервисы. Работает полностью оффлайн.
Ключевые фишки:
- Голосовые и видео-звонки с ИИ
- Встроенная поддержка RAG и веб-поиска
- Генерация изображений через DALL-E и локальные API
- Одновременная работа с несколькими моделями
- Поддержка Python-функций
Установка через Docker за одну команду. Есть готовые образы с CUDA для GPU.
Идеальное решение для тех, кто хочет свой ChatGPT без зависимости от внешних сервисов.
Такая замена LMStudio на максималках
#OpenWebUI #SelfHosted #AIInterface
------
@tsingular
Вы наверное еще не все знаете, но за месяц с выхода Veo 3 – вселенная брейнрота с ASMR-видео пополнилась, теперь там режут стекло или трогают лаву
В общем, еще одна индустрия пострадала от АИ 🌝
PlayHT представила PlayDiffusion для точного редактирования речи
Компания Play.AI решила главную проблему синтеза речи — невозможность редактировать отдельные слова без артефактов.
Их новая модель PlayDiffusion использует диффузионный подход вместо авторегрессивного. Например заменить "Neo" на "Morpheus" в уже сгенерированной фразе, сохранив естественность речи.
Модель работает через маскирование: выделяет нужный фрагмент, заменяет его на основе нового текста, при этом контекст остается целостным.
Чёрное зеркало,- подмена реальности.
#PlayDiffusion #SpeechSynthesis #AudioEditing
------
@tsingular
Adobe запускает LLM Optimizer - конец эпохи SEO?
Adobe представила инструмент LLM Optimizer для оптимизации контента под ИИ-чатботы вроде ChatGPT, Gemini и Claude.
Трафик с генеративного ИИ на ритейл-сайты США вырос на 3500%, на туристические - на 3200% за год. Люди всё чаще ищут информацию через чатботы вместо Google.
Инструмент отслеживает, как бренды появляются в ответах ИИ, находит пробелы в видимости и предлагает улучшения "в один клик". Даже оценивает денежную стоимость потенциального трафика.
Традиционное SEO может уйти в прошлое - ведь чатботы работают не как поисковики. Новый золотой век оптимизации под ИИ уже начался.
#LLMOptimization #AdobeAI #AITraffic
------
@tsingular
Новая медицинская ИИ-модель превзошла конкурентов Google
Intelligent Internet выпустили II-Medical-8B-1706 — специализированную модель для медицинских задач на основе Qwen3-8B.
Модель показала 46.8% на бенчмарке HealthBench, что сравнимо с 27-миллиардной MedGemma от Google. При этом размер модели всего 8 миллиардов параметров.
Обучалась на 2.3 млн образцов медицинских данных через двухэтапный процесс: сначала supervised fine-tuning, затем reinforcement learning для улучшения рассуждений и безопасности.
Доступны готовые квантованные версии для быстрого запуска через vLLM или SGLang.
#MedicalAI #LLM #HealthTech
------
@tsingular
IBM официально завершила покупку DataStax
Сделка объявленная в феврале официально закрыта. DataStax теперь часть IBM.
Основная идея остается прежней - "нет ИИ без данных". Но теперь у компании больше ресурсов для масштабирования.
Основные продукты:
- Astra DB и Hyper-Converged Database
- Интеграция с watsonx.data и watsonx.ai
- Langflow - популярный продукт для no-code разработки
- Apache Cassandra как основа
Для клиентов ничего не меняется - тот же сервис, но с большей поддержкой IBM.
Langflow, - это теперь IBM
#DataStax #IBM #Langflow
------
@tsingular
Hugging Face обновили курс по LLM
Крупное обновление популярного курса от Hugging Face - теперь фокус на создании как малых, так и больших языковых моделей.
Основные улучшения:
- Новая глава по файн-тюнингу моделей с практическими примерами
- Интеграция библиотек Datasets, Tokenizers, Accelerate и Evaluate
- Обновленные best practices для PyTorch
- Интерактивные квизы для проверки знаний
- Практические задания по классификации текста с BERT
Теперь студенты смогут не только использовать готовые модели, но и адаптировать их под свои задачи с современными подходами.
#HuggingFace #LLMCourse #FineTuning
------
@tsingular
Роботы и дети.
Доверили бы?
#unitree #robots #Китай
------
@tsingular
Alibaba Cloud представила новые ИИ-решения для европейского рынка
На саммите в Париже Alibaba Cloud показал обновлённые ИИ-инструменты для европейского бизнеса.
Ключевые анонсы:
• Улучшенная платформа PAI во Франкфурте для масштабного машинного обучения
• AI Guardrails — система безопасности для ИИ-контента
• Партнёрство с Accenture для работы над гиперпесонализацией для luxury-брендов
• Логистическое решение с Cainiao даёт 25% рост эффективности и 22% экономию
Расширяются партнёрства с BMW (интеграция Qwen в авто), LVMH и SAP. Также запущена образовательная программа с французской бизнес-школой для подготовки ИИ-специалистов.
Китай закрепляется в Европе
#Alibaba #Cloud #Китай
------
@tsingular
Бессмертие почти: китайские ученые нашли генетический переключатель регенерации органов у млекопитающих
Прорыв в регенеративной медицине от китайских исследователей из NIBS и BGI Research. Публикация в Science показала, как восстановить способность к заживлению у млекопитающих.
Ключ — ген Aldh1a2, отвечающий за метаболизм витамина А. У рыб и саламандр он активен, у млекопитающих — заблокирован эволюцией.
Ученые "включили" этот ген у мышей и крыс, что привело к полной регенерации мягких и суставных тканей.
Механизм работает через производство ретиноевой кислоты.
Открытие может упростить лечение травм костей, конечностей, кожи, нервов и легких у людей.
#regeneration #Aldh1a2 #biotechnology #Китай
———
@tsingular
🚀 Baidu открыла исходный код серии моделей ERNIE 4.5 !
🧠 Эти модели достигли SOTA-результатов на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
🔧 Обучены на PaddlePaddle с эффективностью до 47% MFU при претрейне крупнейшей модели.
📦 В составе релиза:
- 10 моделей ERNIE 4.5,
- MoE‑архитектуры с 3B и 47B активных параметров,
- самая крупная модель содержит 424B параметров (MoE),
- также доступна компактная dense‑версия на 0.3B.
Всего Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥
🟢Попробовать: http://ernie.baidu.com
🟢Hugging Face: https://huggingface.co/baidu
🟢GitHub: https://github.com/PaddlePaddle/ERNIE
🟢AI Studio: https://aistudio.baidu.com/overview
@ai_machinelearning_big_data
#ERNIE #opensource #Baidu
Для всех вайбкодеров делюсь скриптом, который автоматически установит и поднимет у вас локальный докер с docling, через который вы можете вызывать обработку документов, получать номер очереди потом периодически проверять в нем результат.
Скрипт - просто скачать и запустить в ubuntu. (докер должен быть уже установлен)
а дальше проверить можно так:
curl -s -X POST http://localhost:8080/jobs \
-H "Content-Type: application/json" \
-d '{"source": "https://arxiv.org/pdf/2206.01062"}'
curl -s http://localhost:8080/jobs/НОМЕР-ОЧЕРЕДИ/result
Вот некоторые спрашивают, - чего тебе дался этот n8n?
Ну например вот.
Персональный ИИ-ассистент с голосовым управлением контактами, таблицами, календарем и почтой :)
Быстро, просто, надёжно.
#n8n
———
@tsingular
IBM запустила ContextForge — центральный шлюз для MCP протокола
IBM выпустила открытый инструмент для унификации работы с Model Context Protocol — стандартом взаимодействия ИИ с внешними инструментами.
ContextForge работает как центральный шлюз, который превращает обычные REST API в MCP-совместимые сервисы. Добавляет аутентификацию, мониторинг, кэширование и админку.
Поддерживает множество протоколов — от stdio до HTTP, работает с Redis и PostgreSQL. Доступен через PyPI и Docker.
По сути это прокси-сервер, который делает любые API доступными для ИИ-приложений в едином формате. Решает проблему фрагментации инструментов для ИИ.
#MCP #IBM #Gateway
------
@tsingular
Увидимся на GigaConf 2025 💬
Завтра, 25 июня, покажу демку как быстро можно сделать голосового телеграм ИИ агента на n8n и Гигачате в рамках GigaConf — технологической конференции, которая соберёт более 2 000 разработчиков, архитекторов, DevOps-специалистов, ML-инженеров и представителей бизнеса в Москве.
Зарегистрироваться можно на сайте
Приезжайте, пообщаемся :)
#Сбер #GigaConf
———
@tsingular
Elevenlabs запустили портал разговорных ИИ агентов
11.ai
Работает на базе их собственного сервиса ConversationalAI
Доступно 5000 голосов. В том числе можно создавать свои.
Главная фишка - интеграция с MCP инструментами.
Голосовые ассистенты платформы могут использовать поиск Perplexity, работать с календарём Гугл, использовать Slack и в принципе работать с любыми MCP серверами на ваш выбор.
Для работы нужен VPN.
#ElevenLabs #11 #MCP
———
@tsingular
Самый результативный лайфхак про персонализацию, глубину и точность ответов нейросети.
(Метод подсмотрел в канале Саши Садовского.)
Я начал добавлять в конце промпта фразу:
«Прежде чем дать мне ответ, оцени его неопределённость. Если она больше, чем 0.1 — задавай мне уточняющие вопросы до тех пор, пока неопределённость будет 0.1 или меньше».
И это магически увеличивает качество ответа.
Почему так происходит?
Неопределённость — это вероятность, что какой-то новый факт может сильно изменить существующий ответ.
Откуда она берётся?
Неопределённость происходит из-за моей лени.
Я не готов писать каждый раз гигантские промпты, чтобы максимально точно передавать свой запрос.
Неопределённость происходит из-за иежупы — «и_ежу_понятно». Когда я уверен, что всё очевидно, потому что я сам внутри контекста. Но другие — не я. И нет, им далеко не всё понятно.
«В письмах всё не скажется, всё не так услышится».
Поэтому я перекладываю задачу по конкретизации на нейросеть. И она отлично сама себя погружает в мой контекст.
Вопросов может быть 2, может быть 10. Может быть одним блоком, а иногда у неё появляются новые вопросы после моих ответов.
Таким образом GPT начинает стремиться к однозначности, задаёт вопросы и корректирует себя до того, как отвечает. В результате — гораздо более точные и осмысленные ответы, с учётом контекста.
ChatGPT научился записывать и резюмировать встречи
OpenAI запустила функцию записи аудио для пользователей ChatGPT Pro, Enterprise и Edu. Теперь можно записывать встречи одним кликом.
Функция работает как Otter.ai - записывает до 2 часов, автоматически создает транскрипцию и резюме. Можно преобразовывать в письма, код или другие форматы.
Доступно пока только в macOS приложении. Аудио удаляется сразу после обработки, но транскрипции могут использоваться для обучения модели (если не отключить в настройках).
#ChatGPT #MeetingTranscription #OpenAI
------
@tsingular
Коллекция руководств по созданию production-ready AI агентов
Охватывает достаточно большое количество аспектов: орекстраторы, инструменты, инструкции по установке и настройке, память, интерфейсы, фреймворки, мультиагентные сценарии, безопасность и тестирование.
Каждый урок содержит готовый к запуску код с документацией.
Включает паттерны для масштабирования от прототипа до продакшена, готовые блюпринты архитектуры и интеграционные решения.
#Agents #Production #OpenSource #каталоги
———
@tsingular
Зацените насколько круче китайский Hailuoai чем Sora от OpenAI.
Не хватает, конечно, генерации звука, как в Veo3, но уверен к концу лета сделают, а может и раньше.
#Hailuoai #Sora #нейрорендер
———
@tsingular
MCP сервер для автоматического создания и проверки процессов в n8n
Наткнулся на интересный проект - MCP сервер для интеграции n8n с ИИ-ассистентами вроде Claude.
Теперь ИИ может напрямую работать с документацией 525+ нод n8n, вытаскивать их ключевые параметры, создавать и проверять корректные автоматизации.
Есть готовый докер:
docker pull ghcr.io/czlonkowski/n8n-mcp:latest
# 1. Clone and setup
git clone https://github.com/czlonkowski/n8n-mcp.git
cd n8n-mcp
npm install
npm run build
npm run rebuild
# 2. Test it works
npm start
Google выпустил Magenta RealTime — модель для создания музыки в реальном времени
Google опубликовал открытую модель Magenta RT для интерактивного создания музыки в реальном времени. Это младший брат Lyria RealTime, которая работает в Music FX DJ.
Модель на 800 млн параметров обучена на 190к часах инструментальной музыки. Генерирует 2-секундные аудиоблоки за 1.25 секунды на TPU.
Ключевая фишка — возможность изменять стиль музыки на лету, смешивая разные жанры и инструменты через текстовые промпты. Максимальная задержка управления — 2 секунды.
Запускается бесплатно в Colab, код доступен на GitHub. Скоро добавят локальный запуск и файн-тюнинг.
HuggingFace
Новый вид диджейства - промпт-диджей :)
#Music #Google #Magenta
------
@tsingular
Илон Маск говорит, что люди — это всего лишь биологический загрузчик для цифрового сверхразума
Даже если бы у всех был IQ 1000, человеческий интеллект все равно был бы в миллиард раз слабее искусственного интеллекта
«процент интеллекта, присущего человеку, будет весьма невелик»
в этом и есть особенность: мы не знаем, что будет дальше
🎧 MiniMax продолжают жечь и выпускают генератор речи
🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка
Попробовать можно здесь →https://minimax.io/audio
@ai_machinelearning_big_data
#audio #ai #ml #MiniMax