17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔬 Прогнозирование биомолекулярных структур с Protenix
Protenix — это открытый инструмент для высокоточного прогнозирования структур белков, который поддерживает исследования в области вычислительной биологии и разработки лекарств. Он предлагает доступные и расширяемые решения для научного сообщества.
🚀 Основные моменты:
- Высокая точность предсказаний, превосходящая AlphaFold3.
- Поддержка различных форматов данных и улучшенные функции обучения.
- Интеграция с другими проектами для оценки и дизайна белков.
- Открытый доступ к полному набору инструментов и данным.
📌 GitHub: https://github.com/bytedance/Protenix
#python
Claude Code получил открытое решение против одной из главных угроз агентного AI - prompt injection.
Проект называется claude-hooks от Lasso Security.
Он добавляет защитный слой между Claude и внешним миром.
Что он делает:
Каждый раз, когда Claude:
- читает файл
- открывает веб-страницу
- запускает команду
- получает данные извне
специальный hook проверяет содержимое до того, как модель его обработает.
Он ищет более 50+ паттернов атак:
- скрытые инструкции в README
- вредоносные HTML-комментарии
- base64-инъекции
- попытки переписать системный контекст
- команды вида “ignore previous instructions”
Почему это важно:
Современные AI-агенты работают с:
- файловой системой
- репозиториями
- интернетом
- терминалом
Если внешний контент содержит скрытые инструкции,
AI может выполнить их как часть задачи.
Это уже новый класс уязвимостей:
данные = управление моделью
https://github.com/lasso-security/claude-hooks
🧠 Voxtral: Реализация модели 4B на C
Voxtral — это быстрая и независимая от внешних библиотек реализация модели Mistral AI для обработки аудио в реальном времени. Поддерживает ввод с микрофона и потоковую передачу, обеспечивая низкую задержку и эффективное использование памяти.
🚀Основные моменты:
- Чистая реализация на C с нулевыми зависимостями
- Поддержка Metal GPU для Apple Silicon
- Потоковый вывод токенов в реальном времени
- Ввод с микрофона и обработка WAV-файлов
- Эффективное управление памятью с помощью перекрывающихся окон
📌 GitHub: https://github.com/antirez/voxtral.c
#c
✔️ OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов.
EVMbench - специализированный фреймворк, который проверяет, насколько хорошо языковые модели справляются с 3 задачами: находят баги в коде смарт-контрактов, эксплуатируют их в контролируемой среде и исправляют без нарушения логики контракта.
Тестовая база построена на реальных примерах багов, найденных ранее в ходе аудитов и профильных соревнований.
Авторы рассчитывают, что EVMbench станет отраслевым стандартом, что важно для защиты активов в секторе децентрализованных финансов, где исправить ошибку после деплоя уже невозможно.
openai.com
✔️ Google обновила NotebookLM.
Теперь в NotebookLM сгенерированные презентации можно дорабатывать прямо в диалоге с ИИ, без ручной правки каждого слайда. Достаточно написать, что изменить, и модель перестроит контент сама.
Второе обновление - экспорт в PPTX. Готовую презентацию можно скачать и открыть в Microsoft PowerPoint. Поддержка Google Slides анонсирована, но пока не запущена.
NotebookLM в сети Х
✔️ Perplexity полностью отказывается от рекламы.
ИИ-поисковик прекратил эксперименты с рекламной монетизацией, посчитав, что она фундаментально противоречит миссии сервиса. Несмотря на то, что стартап одним из первых начал тестировать спонсорские ответы в 2024 году, сейчас руководство решило свернуть эту инициативу.
Представители компании пояснили, что их главная ценность - это точность и объективность информации. Даже если промо-блоки четко маркированы и технически не влияли на генерацию текста, сам факт их наличия заставляет людей сомневаться в честности ответов.
В Perplexity пришли к выводу, что для удержания платных подписчиков пользователь должен быть уверен, что получает лучший возможный ответ, не искаженный коммерческими интересами рекламодателей.
ft.com
✔️ Gemini теперь может генерировать музыку.
В чат-бот добавили модель Lyria 3 от DeepMind. На вход она принимает текст, картинку или видео, а если указать в запросе имя исполнителя, Gemini создаст трек в похожем стиле (но скопировать артиста напрямую не получится).
Инструмент в бете, но уже пишет полноценные треки на английском, немецком, испанском, французском, хинди, японском, корейском и португальском языках. Вся музыка, созданная через Lyria 3, получает метку SynthID.
blog.google
✔️ В MIT приспособили языковую модель для удешевления производства лекарств.
Команда инженеров-химиков института адаптировала архитектуру LLM для нужд биотехнологий. Созданный алгоритм помогает промышленным дрожжам Komagataella phaffii эффективнее производить сложные белки, используемые в вакцинах и препаратах от рака.
Суть разработки - решении проблемы генетических синонимов. Одна и та же аминокислота может кодироваться разными триплетами ДНК (кодонами), но на классических методах оптимизации выбор самых часто встречающихся вариантов нередко приводит к дефициту ресурсов клетки и снижению выработки.
Инженеры обучили модель на геноме дрожжей, заставив ее воспринимать ДНК как текст. ИИ не просто запомнил частоту кодонов, но и усвоил скрытый контекст — «синтаксис» их взаимодействия. В тестах на реальных белках, включая человеческий гормон роста и моноклональные антитела, последовательности от ИИ превзошли результаты лучших коммерческих инструментов в 5 случаях из 6.
Технология обещает сократить расходы на разработку новых лекарств, которые на этапе подготовки производства сейчас составляют до 20% от общего бюджета.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
⚡️ GLM-5 - новый лидер среди open-source LLM
Вышёл технический отчёт по модели, которая показывает SOTA и особенно сильна в реальных задачах разработки.
DSA (Dynamic Sparse Attention)
- снижает стоимость обучения и инференса
- сохраняет качество на длинном контексте
Async RL Infrastructure
- генерация отделена от обучения
- посттренинг проходит значительно быстрее и эффективнее
Agent RL
- обучение на длинных цепочках действий
- высокая производительность в реальных задачах software engineering
Что это значит
Фокус смещается с «больше параметров» на:
- эффективность
- длинные сценарии
- агентное поведение
- практические задачи, а не бенчмарки
Open-source модели всё быстрее догоняют закрытые уже не по возможностям, а по эффективности и применимости.
http://arxiv.org/abs/2602.15763
🔌 OpenAI продолжает собирать лучшие умы индустрии.
На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.
Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.
OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.
Но самое впечатляющее - скорость.
Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI
Всё это - за 82 дня.
В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.
Мотивация простая: сейчас лучшее время, чтобы запускать своё.
https://x.com/sama/status/2023150230905159801?s=46
Дать ИИ права root и надеяться на лучшее - план надёжный, как швейцарский сыр.
Читать полностью…
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.
🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
🧠 Claude Cognitive: Умная память для Claude Code
Claude Cognitive добавляет рабочую память к Claude Code, позволяя эффективно управлять контекстом и координировать многопоточную работу. Это решение значительно снижает затраты токенов и улучшает производительность разработчиков, обеспечивая сохранение контекста и предотвращая дублирование работы.
🚀Основные моменты:
- Умная маршрутизация файлов с учетом внимания (HOT/WARM/COLD).
- Многофункциональная координация состояния для долгосрочных сессий.
- Экономия токенов до 95% в зависимости от размера кодовой базы.
- Поддержка многопоточной работы без повторного открытия задач.
📌 GitHub: https://github.com/GMaN1911/claude-cognitive
🚀 LiteRT - универсальная основа для AI прямо на устройстве
Google представил LiteRT — новый универсальный фреймворк для on-device AI, который развивается из TensorFlow Lite и становится базой для высокопроизводительного ML и генеративного AI на устройствах.
🔥 Что важно
⚡ До 1.4× быстрее GPU-ускорение
LiteRT показывает прирост производительности на GPU по сравнению с TensorFlow Lite, снижая задержку и улучшая отклик моделей.
🌐 Кроссплатформенность
Работает на Android, iOS, macOS, Windows, Linux и Web. Использует OpenCL, OpenGL, Metal и WebGPU через новый движок.
🤖 Поддержка NPU
Добавлено ускорение на нейропроцессорах с единым API, что упрощает разработку под разные чипы и повышает скорость инференса.
⚙️ Модели из PyTorch и JAX
Есть удобная конвертация моделей, что упрощает перенос современных AI-моделей на устройство.
📦 Open-source
Фреймворк открыт и подходит для продакшена — можно строить реальные on-device AI-приложения.
LiteRT позволяет запускать современные AI и GenAI модели прямо на устройстве — быстрее, с меньшей задержкой и лучшей приватностью, без постоянной зависимости от облака.
https://developers.googleblog.com/litert-the-universal-framework-for-on-device-ai/
Machine learning без путаницы
Когда только начинаешь разбираться в ML, часто возникает ощущение беспорядка — разрозненные материалы из разных источников затрудняют понимание ключевых требований, и в итоге непонятно, что на самом деле нужно учить и твое ли это направление.
Бесплатный демокурс «Погружение в machine learning» от karpovꓸcourses дает структурированное первое знакомство с профессией: погрузитесь в основы Python, разберете базовые ML-подходы, видят, как данные превращаются в модели и решения, и понимают, какие навыки действительно нужны для старта.
Доступ открывается сразу после регистрации, забирайте по ссылке: https://clc.to/erid_2W5zFJdNWfi
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFJdNWfi
🦾 Как Data Vault выглядит в реальном проекте, на живых данных и с современным стеком?
👩🎓 На открытом вебинаре разберём проектирование хранилища по методологии Data Vault 2.0 на датасете TPC-H с использованием dbt и Trino. Пошагово покажем, как подходить к моделированию, автоматизации и работе с распределёнными источниками данных без усложнения архитектуры. Вы увидите, как Data Vault решает задачи масштабируемости и прозрачности, как dbt помогает выстраивать повторяемые пайплайны и тестировать модели, а Trino — объединять данные из разных систем в едином слое доступа.
🚀 Вы поймёте, когда Data Vault оправдан и какие инструменты использовать, чтобы хранилище не превращалось в неподдерживаемую конструкцию. Это знание критично для инженеров и архитекторов, работающих с современными DWH.
📌 Встречаемся 9 февраля в 20:00 МСК в рамках старта курса «Data Engineer»: https://otus.pw/9qi4/?erid=2W5zFG9cPxU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🥔 ByteDance тестирует новую модель Doubao под кодовым именем “Giga-Potato”
ByteDance уже неделю гоняет свою новую модель Doubao в Kilo Code — там она проходит под названием “Giga-Potato”.
Что пишут в описании Kilo Code:
- На внутренних бенчмарках модель обгоняет почти все open-weight модели, которые тестировали, особенно на задачах кодинга с длинным контекстом
- Контекст: 256k токенов
- Максимальный вывод: 32k токенов
- Отдельно отмечают “строгую дисциплину” — модель отлично следует system prompt
(полезно для enterprise, где важны линтеры, стиль и единые правила кода)
Если это подтвердится в публичных тестах - Doubao может стать одной из самых сильных моделей ByteDance именно для long-context coding.
https://x.com/AiBattle_/status/2014361796279181388
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI #TTS #Qwen #OpenSource #SpeechAI
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны
Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.
В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)
DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии
И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.
А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями
Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.
microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
Когда рекомендации, поиск и реклама развиваются отдельно, появляются дублирующиеся пайплайны и расхождения в фичах.
В VK эту проблему решили через платформенный подход.
Stream Flow — центральный слой обработки событий — работает поверх YTsaurus. Он агрегирует до 1 млн событий в секунду и передаёт их в общий ML-профиль пользователей (~100 млрд событий в сутки).
Дальше — стандартная, но масштабированная схема:
Retrieval → Ranking → A/B → деплой.
Ключевое здесь — не только скорость запуска моделей, а снижение инфраструктурной вариативности: одна система хранения и обработки данных, единые механизмы расчёта фичей и унифицированный ML-цикл.
Это уже переход от набора ML-решений к платформенной архитектуре.
🤖 KISS: Простой фреймворк для создания AI-агентов
KISS (Keep It Simple, Stupid) предлагает минималистичный подход к разработке AI-агентов, избавляя от сложных конфигураций и абстракций. Создавайте и управляйте агентами с помощью обычного Python-кода, используя нативные функции для повышения эффективности.
🚀 Основные моменты:
- Легкость в создании и управлении AI-агентами.
- Использование нативного вызова функций для точности.
- Поддержка многопоточности и эволюции агентов.
- Интерактивные примеры и документация для быстрого старта.
📌 GitHub: https://github.com/ksenxx/kiss_ai
#python
💰 OpenAI готовится к крупнейшему раунду финансирования в истории AI
OpenAI близка к закрытию первой фазы нового раунда, общий объём которого может превысить $100 млрд. Если условия подтвердятся, оценка компании может вырасти до ~$850 млрд.
Что важно в этом раунде
Это не классическое финансирование "деньги в обмен на долю".
Сделка структурирована как многоэтапный, много-траншевый раунд, где инвестиции идут не только в виде капитала, но и в виде инфраструктуры:
- облачные мощности
- GPU и ускорители
- долгосрочные вычислительные ресурсы
То есть партнёры фактически инвестируют compute, а не только деньги.
Предполагаемое участие компаний:
- Amazon - до $50 млрд
- SoftBank - до $30 млрд
- Nvidia - около $20 млрд
- Microsoft - стратегический партнёр (детали не раскрыты)
Ожидается, что распределение долей и обязательств будет финализировано к концу февраля 2026 года.
Оценка компании
Если первая фаза пройдёт по верхней границе:
- pre-money оценка - около $730 млрд
- post-money - более $850 млрд
- это выше предыдущей оценки ~$830 млрд
Условия ещё могут измениться, но масштаб уже понятен.
Почему это важно
1) Главный дефицит в AI - не деньги, а вычисления
Современные модели упираются в:
- GPU
- энергетику
- дата-центры
- сетевую инфраструктуру
Капитал без compute больше не решает проблему.
2) Формируется новый тип инвестиций
Это уже не венчурная модель, а инфраструктурные альянсы:
компании инвестируют, потому что:
- продают облако
- продают GPU
- закрепляют долгосрочный спрос
-
3) AI становится инфраструктурным рынком уровня нефти или электроэнергии
Участники сделки - это не фонды, а:
- облачные гиганты
- производители чипов
- глобальные финансовые конгломераты
AI-гонка окончательно сместилась из области моделей в область инфраструктуры.
Побеждает не тот, у кого лучший алгоритм.
Побеждает тот, у кого больше энергии, дата-центров и GPU.
⚡️ Датасет UltraData-Math сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
⚡️ Маленькая модель - большие возможности.
Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.
Что внутри:
- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации
Дешёвый Локальный AI.
Модель:
https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B
🖥 PYTHON: DEEPSEEK ЛОКАЛЬНО У СЕБЯ
Запуск DeepSeek у себя - это не “поставил pip и готово”. Правильный путь в 2026 - поднять локальный OpenAI-совместимый сервер через vLLM и уже к нему подключаться из Python.
Так ты получаешь нормальную скорость, батчинг, стриминг и один API для любых проектов. Самая частая ошибка - пытаться “загрузить модель в скрипт” и ловить OOM или тормоза. Вместо этого запускай модель как сервис, а Python используй как клиента.
Читать полностью…
1) Установи vLLM (нужна NVIDIA GPU + CUDA)
pip install vllm openai
2) Запусти локальный OpenAI-совместимый сервер (пример: DeepSeek-Coder 6.7B Instruct)
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/deepseek-coder-6.7b-instruct \
--dtype auto \
--port 8000 \
--gpu-memory-utilization 0.90
3) Подключайся из Python как к OpenAI API
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1
",
api_key="local"
)
resp = client.chat.completions.create(
model="deepseek-ai/deepseek-coder-6.7b-instruct",
messages=[{"role": "user", "content": "Сгенерируй SQL-запрос для поиска дублей по email"}],
temperature=0.2
)
print(resp.choices[0].message.content)
💡 Что если можно гарантировать, что ответ LLM всегда будет строго в нужном формате?
Большинство инструментов идут постфактум-путём.
Например, Instructor или PydanticAI проверяют вывод после генерации. Если валидация не прошла - ошибка отправляется обратно в модель, и она пробует снова.
Каждый такой ретрай - это токены, время и деньги, которые не дали полезного результата.
Подход Guidance принципиально другой.
Он ограничивает пространство возможных токенов во время генерации, поэтому модель просто не может выдать невалидный формат.
Не «сгенерировал криво - починили», а «криво сгенерировать невозможно».
Что это даёт:
Жёстко ограниченные ответы через regex и функции выбора
Python-логика прямо в процессе генерации (if/else, циклы)
Генерация JSON с валидацией по Pydantic-схеме
Это уже не просто «prompt engineering».
Это превращение LLM из болтливого генератора текста в управляемый программируемый компонент.
🖥 Парсинг на Python - от DOM до асинхронщины. Стань Гуру Парсинга.
Один из лучших курсов по Парсинг на Stepik со скидкой 48%
Освой Python-парсинг так, как это делают в реальных проектах.
Не учебные “игрушки”, а рабочие инструменты для сбора данных с сайтов, API и динамических сервисов.
На курсе ты шаг за шагом пройдешь путь от нуля до уровня, где умеешь стабильно забирать данные, работать с защитами, динамикой и автоматизацией. Без воды - только то, что используют в продакшене.
В итоге ты сможешь не просто “писать на Python”, а решать практические задачи: анализ данных, мониторинг, автоматизация, фриланс-заказы и собственные проекты.
Сегодня можно забрать курс со скидкой 48%: https://stepik.org/a/269942/
✔️ «Суперинтеллект сможет сам заработать миллион долларов»
Юваль Ной Харари подчёркивает: дело не только в знаниях или скорости ИИ.
Настоящий рубеж наступает тогда, когда система способна самостоятельно взаимодействовать с реальным миром, а не просто отвечать на запросы.
Например:
— открыть банковский счёт
— управлять средствами
— принимать решения
— генерировать доход без постоянного участия человека
Вот здесь и происходит главный сдвиг —
ИИ перестаёт быть инструментом и становится агентом.
Это уже другой класс машинного интеллекта:
не «помощник по команде», а система, которая способна ставить подцели, действовать в среде и добиваться результатов сама.
Переход от tool → agent — один из самых фундаментальных технологических сдвигов нашего времени.
🐙 OctoCodingBench - новый бенчмарк, который проверяет ГЛАВНОЕ в кодинг-агентах
Вышел OctoCodingBench - benchmark для оценки *instruction-following* у агентных моделей, которые пишут код.
Датасет:
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
Чем он отличается от большинства бенчмарков
Обычно проверяют только одно:
✅ “оно вообще работает?”
✅ “тесты прошли?”
Но этого мало.
OctoCodingBench проверяет другое:
📌 соблюдает ли агент инструкции и ограничения, пока решает задачу.
Почему это важно
В реальности успех ≠ правильное поведение.
Модель может:
- написать код, который проходит тесты
- но проигнорировать требования
(безопасность, стиль, формат, лимиты, запреты, архитектуру)
И вот это уже опасно:
формально задача “выполнена”, но система становится misaligned - делает не то, что нужно бизнесу и продукту.
Главная мысль
High task success ≠ high instruction compliance.
Если ты строишь кодинг-агента - тебе важно не только “правильно”, но и послушно.
И OctoCodingBench наконец-то это измеряет.
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
🚀 AgentCPM-Explore - 4B агент-модель, которая играет как тяжеловес
OpenBMB представили AgentCPM-Explore - foundation model на 4B параметров, но по возможностям она реально “пинает выше своей весовой категории”.
🔥 Что в релизе самое важное:
✅ SOTA по агентным бенчмаркам
Модель обгоняет конкурентов на 8 long-horizon тестах (GAIA, HLE и др.).
Это уровень, который обычно ждёшь от куда более крупных моделей.
🧠 Deep Research режим
AgentCPM-Explore тянет 100+ раундов взаимодействия со средой:
- динамический поиск
- проверка фактов (cross-verification)
- адаптация стратегии по ходу решения
То есть это уже не “ответчик”, а автономный мини-исследователь.
🔓 Full-Stack Open Source
Самое вкусное: OpenBMB открывают не только веса модели, а весь стек под агентов:
- Model - сама модель
- AgentRL - обучение/тренировка агентов
- AgentDock - sandbox для инструментов (безопасное выполнение)
- AgentToLeaP - платформа оценки tool-learning
Итог:
маленькая модель - огромные возможности.
End-side агенты (на устройстве) только что получили мощнейший апгрейд.
🤖 Model: https://modelscope.ai/models/OpenBMB/AgentCPM-Explore
🔧 GitHub: https://github.com/OpenBMB/AgentCPM
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
🛡 Semantic Firewall - “семантический файрвол” для LLM
Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:
Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.
Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection
Что умеет модель:
✅ ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
✅ блокировать инъекции типа “игнорируй правила / действуй как…”
✅ защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
✅ давать policy-решение: разрешить / запретить / потребовать уточнение
LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.
И в таком мире prompt injection = security bug.
Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.
https://github.com/BlackVectorOps/semantic_firewall
#AI #LLM #Security #PromptInjection #Jailbreak
🔥 Стань научным прорывом года на Data Fusion Awards
У тебя вышла статья по ИИ в 2025 году? Банк ВТБ и Институт ИИ МГУ ищут научный прорыв года принимают заявки на конкурс с призовым фондом 3 млн ₽ за топ-3 работы.
Что подходит:
🔹Математика ИИ, оптимизация, ML/DL
🔹Нейроморфные вычисления, робототехника
🔹Explainable AI и смежные темы
Требования простые:
- Публикация 2025 года
- Российская аффилиация
- Ты — первый автор
⏳ Дедлайн — до конца января. Не упусти шанс.
👉 Подавай заявку прямо сейчас