17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
Разработка сервиса с передовыми LLM-моделей в одном окне
Интересный кейс на Хабре — red_mad_robot провели технологический эксперимент и сделали AI-сервис Daisy — с большинством ведущих LLM и кастомной нейросетью для генерации изображений под капотом. В материале подробный рассказ, как выстраивать AI-based UX и объединить разные модули в многоуровневую архитектуру, описана маршрутизация и логические слои сервиса.
Для безопасности и точности ответов в Daisy собрали собственный контент-фильтр, который анализирует смысл запроса, а не просто ключевые слова. С учетом ложных срабатываний точность фильтра составила 87%.
📎 Читайте кейс полностью на Хабре: https://habr.com/ru/companies/redmadrobot/articles/941398/
AI-агенты вместо генеративок
Генеративные модели были лишь разминкой. Теперь на повестке системы, которые могут выполнять задачи сами: от покупки билетов до развёртывания облака. По сути — шаг к тому, чтобы ИИ стал полноценным участником рабочих процессов, а не просто генератором кода или контента.
В подкасте «Мы обречены» это обсуждают подробно: что уже умеют агенты, какие инструменты появляются и где ждать первых внедрений.
@bigdatai
🚨 NEWS: xAI подала в суд на своего бывшего инженера Xuechen Li
Компания обвиняет его в краже технологий Grok и передаче их в OpenAI.
📌 Из иска:
> В июле он забрал секретные файлы после того, как продал акции xAI на $7 млн и принял оффер от OpenAI
> 14 августа Li признался в краже во время встречи
> Позже xAI обнаружила на его устройствах ещё больше украденных данных
> Компания требует компенсацию и запрет на переход Li в OpenAI
⚖️ Судебный процесс только начинается, но ставки очень высоки.
news: https://reuters.com/legal/litigation/musks-xai-sues-engineer-allegedly-taking-secrets-openai-2025-08-29/
🚨 OpenAI выпустила HealthBench на Hugging Face!
🧑⚕️ Новый датасет создан для строгой оценки возможностей больших языковых моделей в области здравоохранения.
В него вошло 5 000 реалистичных медицинских диалогов, подготовленных при участии сотен врачей со всего мира.
⚡ Это важный шаг для применения ИИ в медицине — теперь модели будут проверяться не только на знания, но и на качество помощи человеку.
👉 Датасет доступен здесь: https://huggingface.co/datasets/openai/healthbench
🔥 Intern-S1-mini — новая лёгкая опенсорсная мультимодальная reasoning-модель
✨ 8B LLM + 0.3B vision encoder
✨ Лицензия Apache 2.0
✨ Обучение на 5T мультимодальных данных (50%+ — научные домены)
✨ Dynamic tokenizer для молекул и белковых последовательностей
🔗 https://huggingface.co/internlm/Intern-S1-mini
🚀 NVIDIA ускорила LLM в 53 раза 🤯
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
🟠Github
🟠Статья
@data_analysis_ml
🚀 🌌MCP Universe🌌 — новый сложный бенчмарк для AI-агентов в реальных условиях.
🏆 Результаты:
🥇 GPT-5 — 43.7%
🥈 Grok-4 — 33.3%
🥉 Claude-4.0-Sonnet — 29.4%
Что это значит?
- 11 реальных MCP-серверов в 6 областях
- 133 доступных инструмента
- 231 задача, созданная вручную и проверенная экспертами
- Оценка по реальному выполнению действий, а не только по тексту
🌐 Сайт проекта: https://github.com/SalesforceAIResearch/MCP-Universe) |
📄 Статья: https://arxiv.org/abs/2508.14704
📌Как создавали RL-агент AutoGLM-OS, который выбил SOTA на OSWorld, обогнав OpenAI и Anthropic.
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
💬 Сооснователь Anthropic Том Браун о том, почему их модели лучше в кодинге:
> «Бенчмарки слишком легко накрутить.
> У всех больших AI-лабораторий есть отдельные команды, которые занимаются только тем, что подтягивают результаты на тестах.
У нас такой команды нет. Это и есть главный фактор».
#AI #coding #Anthropic #benchmarks
🖥 Вайбкодим с GPT-5 как профи — OpenAI выкатили офиц. гайд по работе с моделью. С ним выжмете из нейронки МАКСИМУМ.
1️⃣Будьте предельно ТОЧНЫ и не давайте противоречий — иначе модель запутается.
2️⃣Подбирайте правильный уровень рассуждений (reasoning effort): простое → низкий, сложное → высокий.
3️⃣Структурируйте промпты XML-подобным синтаксисом. GPT-5 лучше держит контекст в таких блоках:
<code_editing_rules>
<guiding_principles>
- Every component should be modular and reusable
</guiding_principles>
<frontend_stack_defaults>
- Styling: TailwindCSS
</frontend_stack_defaults>
</code_editing_rules>
<self_reflection>
- Think of a rubric first
- Deeply analyze each part
- Use rubric to iterate best solution
</self_reflection>
<persistence>
- Don’t ask human for confirmation
- Make best assumption
- Document it after acting
</persistence>
🎨 TexVerse — новый гигантский датасет 3D-моделей с реалистичными текстурами
TexVerse — это целая вселенная 3D-объектов, созданная специально для задач компьютерной графики и AI.
✨ Что внутри:
- 850k+ уникальных 3D-моделей с текстурами высокого разрешения (≥1024px)
- 150k+ моделей с полноценными PBR-материалами
- Подмножества: TexVerse-Skeleton (риггованные модели) и TexVerse-Animation (анимированные)
- Более 1.6 млн вариантов моделей с разными аннотациями
🔥 Для чего подходит:
- Генерация и синтез текстур
- Создание PBR-материалов
- Обучение 3D-AI-моделей
- Анимация и рендеринг
📄Paper: http://arxiv.org/abs/2508.10868
📷GitHub: https://github.com/yiboz2001/TexVerse
🖥 GPT-5 - это скорее оптимизация затрат, чем технологический скачок
Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.
Что нового?
🟠 Композиция из моделей и роутер — вместо одной модели GPT-5 — система минимум из двух моделей: лёгкой и тяжёлой, плюс роутер, который выбирает, какую использовать в зависимости от запроса. Это снижает нагрузку и экономит вычисления.
🟠 Автоматическое отключение рассуждений — reasoning включается только при необходимости. Бесплатные пользователи не могут управлять этим процессом — меньше вычислений, меньше токенов, ниже затраты.
🟠 Отказ от старых моделей — временное отключение GPT-4o. Позже модель вернули для платных пользователей, но общее сокращение числа моделей — часть экономии.
🟠 Ограниченный контекст — 8 000 токенов бесплатно и до 128 000 в Plus/Pro.
✔️ Почему эффективность стала ключевым фактором
ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.
Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.
🟢 Главный козырь OpenAI — дистрибуция. Для большинства людей за пределами AI-сферы ChatGPT = искусственный интеллект, так же как Google = поиск. Но такое лидерство дорого обходится.
🟢 При этом OpenAI нужно постоянно искать новые деньги, чтобы поддерживать и обучение, и инференс. Да, партнёрство с Microsoft помогает, но ситуация сложнее, чем у конкурентов вроде Google — у них стабильная прибыль, собственные дата-центры и TPUs.
🟢 На этом фоне логично, что в GPT-5 сделали сильный упор на эффективность — чтобы снизить затраты и сохранить конкурентное преимущество.
📌 Подробности
@ai_machinelearning_big_data
#news #ai #ml #opanai #chatgpt
🪷 SE-Agent: Как LLM-агенты учатся исправлять код за несколько шагов
Оказывается, ИИ-агенты для работы с кодом можно научить не просто пробовать разные варианты, а эволюционировать — улучшать свои рассуждения на ходу. Новый подход SE-Agent (Self-Evolution Agent) предлагает не просто генерировать множество попыток, а анализировать и комбинировать лучшие части из разных мысленных траекторий.
Вместо того чтобы зацикливаться на однотипных исправлениях, агент учится выявлять корневые проблемы. В одном из примеров обычные агенты пытались скрыть ошибку в валидации, а SE-Agent нашёл отсутствующее поле classes_ и исправил саму причину бага. На тестах SWE-bench метод показывает впечатляющие результаты: Pass@1 достигает 61,2% для Claude 3.5 Sonnet и 54,8% для DeepSeek-V3. При этом он эффективен даже с ограниченным бюджетом на API-запросы.
🔗 Ссылка - *клик*
@bigdatai
🌟 Embedding Atlas: визуализация структуры эмбедингов прямо в браузере.
Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.
🟡Автоматическая кластеризация и разметка данных.
Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.
Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.
🟡Интерактивность.
В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.
Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.
🟡Embedding Atlas поставляется в виде 2 пакетов:
🟢Python-пакет
Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.
🟢Npm-пакет
Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Документация
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Embedding #Visualisation #Apple
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
🔥 Подборка для LLM Fine-Tuning
На GitHub собрали огромную коллекцию датасетов, тулзов и концептов для тонкой настройки LLM.
📂 Всё аккуратно разложено по категориям:
- 🧮 Math & Logic
- 💻 Code
- 💬 Conversation & Role-Play
- 🤖 Agent & Function Calling
⚖️ Все датасеты доступны под свободными лицензиями (Apache 2.0, MIT, CC-BY-4.0 и др.).
👉 Репозиторий: https://github.com/mlabonne/llm-datasets
🧩 Streamdown: Markdown для AI-стриминга
Streamdown — это замена react-markdown, оптимизированная для потоковой передачи Markdown-контента от AI. Он обеспечивает плавное форматирование даже при неполных блоках, что делает его идеальным для интеграции с AI-решениями.
🚀 Основные моменты:
- 🔄 Обработка неполных Markdown блоков
- 🎨 Поддержка GitHub Flavored Markdown
- 🔢 Рендеринг математических формул с помощью KaTeX
- 🛡️ Безопасное рендеринг на основе harden-react-markdown
- ⚡ Оптимизированная производительность с мемоизацией
📌 GitHub: https://github.com/vercel/streamdown
🤖 YandexGPT 5.1 Pro для корпоративных задач
Новая версия генеративной модели от Яндекса теперь доступна через API в Yandex Cloud AI Studio. Главное отличие — ориентация на бизнес-процессы: автоматизация документооборота, работа с внутренними базами знаний и интеграция в CRM.
Модель стала заметно точнее: 71% хороших ответов (против 60% раньше), число ошибок снизилось почти вдвое — до 16%. В бенчмарках она выигрывает у GPT-4.1 в 56% случаев, а также лучше понимает российский контекст и честно сообщает «не знаю», если данных нет.
Стоимость снижена втрое: 40 коп. за 1000 токенов
@bigdatai
🔥 Thyme: Think Beyond Images
Thyme — это инновационная модель, которая улучшает обработку изображений и сложные задачи рассуждения, используя автономное генерирование и выполнение операций через исполняемый код. Она сочетает в себе методы супервайзинга и обучения с подкреплением, обеспечивая высокую точность выполнения кода.
🚀 Основные моменты:
- Автономная генерация и выполнение операций с изображениями.
- Комбинация супервайзинга и обучения с подкреплением.
- Поддержка высокоразрешающей перцепции и сложного рассуждения.
- Использует алгоритм GRPO-ATS для оптимизации работы.
📌 GitHub: https://github.com/yfzhang114/Thyme
#python
@bigdatai
🎙 Ученые из Сбера предложили способ, как даже при небольшом объеме обучающих данных локальными моделями добиться высокой точности обнаружения галлюцинаций LLM — это прорыв в выявлении галлюцинаций искусственного интеллекта
Что важно:
– Точность выявления ошибок выше на ~30% по сравнению с аналогами.
– Для обучения хватает всего 250 примеров.
– Основан на анализе внутренних состояний LLM.
– Работает на классических алгоритмах и трансформере TabPFNv2.
– Снижает затраты на разметку и повышает надёжность ответов ИИ.
🔥 Библиотека GeoAI.js теперь поддерживает Image Feature Extraction — поиск похожих объектов на спутниковых снимках.
Работает полностью локально в браузере благодаря Transformers.js.
👉 https://docs.geobase.app/geoai-live/tasks/image-feature-extraction
#gischat #javascript #geoai #transformersjs
GPU Memory Calculator.
Полезный калькулятор GPU, который подскажет, сможете ли вы запустить локальную LLM и насколько эффективно она будет работать
https://calculator.inference.ai/
📄 Vectorless PDF Chatbot — новый подход к работе с документами
Интересный проект, который предлагает альтернативу традиционным чат-ботам с векторными базами данных. Вместо преобразования документов в эмбеддинги, система использует LLM для интеллектуального анализа PDF-файлов прямо в браузере пользователя.
Решение полностью статично и ориентируется на приватность. Документы не покидают браузер, не требуют предварительной обработки и не хранятся на серверах. При этом бот сохраняет контекст и может анализировать до 100 PDF-файлов одновременно.
🤖 GitHub
@bigdatai
📈 Выходит обновление GPT-5 OpenAI — Сэм Альтман поделился новостями о GPT-5 в своём Twitter. По его словам, большинству пользователей новая версия понравится больше — обновление уже начинает распространяться.
Альтман уделил внимание персонализации: OpenAI работает над тем, чтобы пользователи могли настраивать стиль ChatGPT под свои предпочтения. Это ответ на запросы сообщества о большей гибкости взаимодействия с ИИ.
Ранее официальный аккаунт OpenAI уже анонсировал изменения в GPT-5, сделавшие его теплее и дружелюбнее. Обновление, хоть и кажется незначительным, должно сделать ChatGPT более доступным для общения.
🔗 Ссылка - *клик*
🤖 Doomprompting — новая зависимость от ИИ
Доктор медицины из Гарварда, Ану (именно так она представляется), придумала термин «doomprompting». Это как doomscrolling, только вместо ленты соцсетей — бесконечные диалоги с чат-ботом.
Сценарий знакомый: начинаешь с конкретной задачи — код, текст, заметка. Первые промпты чёткие и осмысленные. Через полчаса уже бездумно жмёшь «продолжить», получая очередной вариант, и тебе кажется, будто идёт работа. Но это лишь иллюзия продуктивности.
Почему хуже doomscrolling? Потому что ИИ сам подталкивает: «Хочу улучшить? Попробуем иначе? Добавим деталей?». Всё как игровой автомат, только ставка — твоё время и способность думать самостоятельно.
Ану проверила, где ИИ реально помогает. В коде — прекрасно. В письме — лишь на подготовке и финальной вычитке. Основной текст, аргументацию, живую мысль он не создаёт — только красивую пустышку, полную клише. В итоге редактируешь не себя, а чужую болтовню.
Главный риск глубже: письмо — это форма мышления. Отдав письмо ИИ, мы отдаём и часть собственной способности мыслить.
А вы замечали за собой «думпромтинг»?
🔥 Qwen3-30B-A3B-Instruct — всего 3B активных параметров, но уже приближается к качеству гораздо более крупных моделей.
Можно легко развернуть локально или протестировать онлайн.
Попробовать: chat.qwen.ai/?model=Qwen3-30B-A3B-2507
АI-агенты в проде, AI-помощник в облаке — что дальше 🧠
Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.
В этом году целый трек будет посвящен трендам в AI&ML:
➡️ Как AI-помощник может управлять инфраструктурой за вас
➡️ Валидация RAG с помощью RAGAS
➡️ SWE-Agents in Developer Tools
➡️ Как собирать мультиагентную систему для любых задач
➡️ Эволюция AI-агентов
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации