На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
https://github.com/gety-ai/apple-on-device-openai
@toshoseti
🛡VulnBuster
Мы тут с коллэгами в рамках huggingface MCP хакатона сделали агентную систему с объединением 5 MCP тулов для поиска уязвимостей в коде
🛡В чем суть:
Агент автоматически анализирует код с помощью различных сканеров, сопоставляет результаты и предлагает варианты устранения уязвимостей на основе ИИ, а также выдает отчет от каждого тула.
🛡Что использовали:
1. Bandit MCP [link] — проверяет Python-код, находит базовые баги вроде SQL-инъекций и небезопасного eval.
2. Detect Secrets MCP [link] — ищет в коде и конфигурациях токены, ключи, пароли — даже закодированные.
3. Semgrep MCP [link] — анализирует 20+ языков, ловит XSS, path traversal и другие шаблонные уязвимости.
4. Pip Audit MCP [link] — находит уязвимые зависимости по CVE и предлагает обновления.
5. Circle Test MCP [via White Circle AI api] — проверяет код на соответствие политикам, которые мы сами задавали: лицензии, TODO, безопасные практики и тд
Именно 5 mcp тулов позволяют закрыть разные уровни безопастности и гибко заменять и расширять друг друга
🛡По итогу вы получаете:
🩰отчеты от всех тулов
🩰предложения по исправлению от агента
🩰а также можете сказать готовый файл от агента и встроить его сразу в workflow, если вам все понравилось
🤗Space
🖥Code
🥹🥹🥹🥹🥹🥹🥹
P.S. Мы будет очень рады вашим лайкам на спейс, а также предложениям по улучшению или интеграциям куда-либо для пользы опенсурсу
AIRI показали универсального ИИ-агента для роботов и индустриальных процессов, способного к самообучению и самокоррекции
Институт выкатил новую Action-модель под названием Vintix, и она умеет кое-что по-настоящему крутое. В отличие от классических агентов, Vintix не просто выполняет задачи, а имитирует сам процесс обучения с подкреплением. То есть, учится сама — даже если вы даёте минимум обратной связи.
Внутри — трансформер с расширенным контекстом и очень плотным представлением данных: состояние, действие и награда сжаты в один токен. Это даёт в 3 раза больше информации на вход, чем у аналогов вроде GATO от DeepMind или JAT от HuggingFace.
Агент устойчив к шуму, задержкам и неполной информации, что критично для промышленных задач. Его уже прогнали по целой серии бенчмарков: от базовой моторики до сложных сценариев с шумом и многозадачностью. В итоге: универсальность + стабильность и на симуляциях, и на производственных задачах. Сейчас модель работает в симуляции на RTX 3070 со стабильными 30 Гц. В будущем обещают мультимодальность (видео, сенсоры), больше данных и переход к более долгосрочному планированию.
А ещё Vintix в опенсорсе. Статью покажут на ICML в июле 2025. Следим 👀
Помните, я показывал свой ресерч про анимированные гауссианы? Схожая технология, уже доступна на телефоне. В удивительное время живем!
Читать полностью…Продолжая тему Oddyssey
Пейпер: https://www.arxiv.org/abs/2506.01103
Демо сайт: https://sotamak1r.github.io/deepverse/
@toshoseti
😎 Один пример, чтобы научить LLM решать задачи? Когда \boxed{ответ} важнее, чем ответ
За что я люблю x.com — это за то, какие жаркие и полезные дискуссии там иногда разгораются. Вот, например, история, достойная научного детектива. Недавно вышла статья с громким названием:
🖇 Reinforcement Learning for Reasoning in Large Language Models with One Training Example
Да, всё так, авторы утверждают, что можно взять всего один пример (напр., задачу по алгебре), дотренить на нём LLM вроде Qwen2.5-Math-1.5B — и вот, производительность на бенче MATH500 прыгает с 36% до 73.6%. Для обучения нужно всего ±100 шагов, и грамотно выбранный пример. Более того, даже когда модель уже переобучена на этот пример, её качество на тестах продолжает расти.
Это наблюдается не только для одной модели, но и для Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B. Но не всё так однозначно.
Через пару недель выходит блог-пост и сопроводительный твит, авторы которого ставят под сомнение эти громкие цифры, а также результаты нескольких других недавних RL статей. По их мнению:
🌸многие baseline’ы занижены, из-за чего RL-подход выглядит лучше, чем он есть на самом деле
🌹значительная часть “улучшений” на самом деле — не улучшения в reasoning, а просто корректный формат вывода (например, обрамление ответа в \boxed{}), чтобы его можно было автоматически распарсить.
📦 \boxed{} — формат, который используется для автоматической оценки ответов LLM: парсер извлекает только то, что внутри. Если ответа там нет — он не считается
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0
👥 Авторы: @LakoMoorDev @nlpwanderer
Не могу, но уж очень я люблю наглядные анимированные диаграммы красивых систем.
Спи, жена
@toshoseti
Как же это круто!
За этим будущее видеоигр и фильмов, как мне кажется.
https://experience.odyssey.world
@toshoseti
Ходят слухи, что у большинства моделей повышается качество ответа, если вопрос задан на Esperanto. Бенчей нет, всего лишь слухи.
Читать полностью…Слишком хорошо, что бы не поделиться https://vm.tiktok.com/ZNdhurrDe/
Читать полностью…🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов
Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource
SageAttention1-2
Ускоряет перемножение матриц за счет сниежения точности до 8бит, используют разделения перемножения и множат по блокам, каналам, токенам одновременно используя матрички маленькой размерности+квантуют до 8бит.
paper
github
Мальчик: метрики FLOPS, скорость перемножения, утилизация
Мужчина:
Мне сегодня 37. На канале у DenisSexy попалось это генерированное видео, как раз в тему.
Читать полностью…Среди редких демок 4d-видео которые работают с телефона – пополнение:
https://www.4dv.ai/en
Работает неплохо, но это все еще технодемка, ограниченная всего несколькими секундами видео
Ну и корги в 4d – великолепно
How much do language models memorize? Новое исследование от Meta FAIR, Google DeepMind и NVIDIA
Задумывались когда-нибудь, сколько данных может запомнить модель с определенным количеством параметров? А сколько конкретно информации может выучить один параметр? А сколько информации он может обобщить?
Кажется, что посчитать это очень сложно или даже невозможно, но вот у ученых из этой статьи получилось: каждый параметр языковой модели способен запомнить примерно 3.6 бит информации. О том, как это посчитали – ниже.
Сразу дисклеймер: до этого были и другие статьи на эту тему, но там запоминание определялось просто тем, может ли модель воспроизвести определенный кусок трейна. На самом же деле все сложнее, и в этой работе подход не такой наивный.
➖ Авторы опираются на понятия из теории информации Колмогорова и Шеннона, и четко разделяют запоминание и обобщение. Если модель воспроизвела что-либо – не значит, что она это запомнила, а не обобщила. В обратную сторону – то же самое.
➖ Количество информации, которое модель именно запомнила, считают так. Берут две модели одинаковой архитектуры и размера: одна – референсная – обучена на огромном количестве данных, вторая – испытуемая – на ограниченном датасете.
Обе модели пропускают один и тот же тренировочный фрагмент через процедуру предсказания и вычисляют вероятности каждого токена. Если вторая модель даёт более высокие вероятности (то есть «тратит» на их декодинг меньше бит, чем референсная), она экономит относительно референсной модели определённое число бит. Сумма сэкономленных бит по всем фрагментам и есть общий объём выученной информации.
Вот так и получилось число 3.6 бит/параметр.
Самое важное, что этот показатель дает возможность четко определить момент перехода запоминания в обобщение: он происходит, когда объём данных в битах примерно равен общей ёмкости модели. И да, экспериментально это сходится: как раз на этом объеме данных тестовый лосс начинает резко падать. Это, кстати, часто называют грокингом.
Красота, как она есть arxiv.org/abs/2505.24832
Внезапно, алгоритм Дэйкстры не является самым оптимальным для поиска кратчайшего пути в однонаправленном графе с неотрицательными весами.
https://arxiv.org/pdf/2504.17033
@toshoseti
Выстрелить себе в ногу из JS не сложнее, чем из C++ . Братва, не стреляйте друг в друга!
Ибо type coercion null в ноль, а затем операция сравнения. В случае >= происходит !(null < 0)
Автообъяснения для любой модели: Plug-and-Play XAI — фреймворк
🐄Привет, друзья!
Область XAI развивается семимильными шагами, так что я к вам со свежей (от 15 мая) статьей, презентующей новый фреймворк для получения объяснений от моделей.
Что: PnPXAI, статья
Для каких модальностей — все популярные: изображения, текст, табличные данные и временные ряды.
Отличительные особенности:
— автоматически определяет архитектуру модели (см. модуль detector), что важно в использовании архитектурно-специфичных методов
— автоматически предлагает релевантные XAI-методы (см. модуль recommender) — не нужно гуглить и учить что-куда
— предлагает оценки объяснения — не нужно ходить в отдельный фреймворк (модуль evaluator)
— оптимизирует гиперпараметры для повышения качества pileline задачи объснений модели (по аналогии с optuna для тюнинга моделей, модуль optimizer)
— Широкий зоопарк методов с понятной навигацией (см. модуль explaner)
Поскольку есть факт, что многие из существующих библиотек объяснений жёстко привязаны к архитектурам моделей или типам данных — фреймворк очень обещающий. Встроенный AutoExplanation позволяет получить объяснение «в один тык». Удобно.
Буду тестировать и добавлять туториала его в уроках для курса по Multimodal XAI. Да и в целом наткнулась на него в этом контексте.
🐄 Сохраняйте на потом, делитесь и пользуйтесь, штука классная!
Ваш Дата-автор!
AGI, говорите? Self awareness, говорите? Вспоминаем фильм Nirvana.
(сгенерировано Veo3).
Шутки шутками, а я задумался.
@toshoseti
Сжатие информации во время обучения LLM улучшает обобщающую способность моделей
Интересная работа от Fangyuan Yu, на которую обратил внимание Fernando Fernandes Neto, охарактеризовав её как «красивую» и «настоящий шедевр».
Yu предлагает подход к улучшению обобщения LLM, заключающийся в периодическом сжатии внутренних представлений модели в процессе обучения. Это напоминает консолидацию памяти у человека во сне.
Ключевые идеи:
• LLM по своей природе чередуют фазы запоминания (обучение на новых данных) и сжатия (реорганизация внутреннего знания), даже если оптимизация происходит только по предсказательной ошибке.
• Снижение энтропии внутренних представлений (то есть уменьшение «хаоса» в скрытых слоях) может улучшить обобщение так же эффективно, как и увеличение объёма обучающего набора.
• Yu предложил алгоритм GAPT (Gated Phase Transition), который явно чередует фазы обучения и сжатия. Это дало улучшение по кросс-энтропии на 4.8% и снизило энтропию представлений на 50%.
• Особенно впечатляющий результат — улучшение на 35% при решении out-of-distribution арифметических задач, что говорит о более качественном переносе знаний на незнакомые ситуации.
• При этом дополнительная нагрузка на обучение составляет всего около 10%.
Это интересный пример, выходящий за рамки классической парадигмы «просто добавь больше данных». Особенно радует внимание к качеству внутренних представлений и исследованию роли функции потерь. Пока что работа ограничена использованием GPT-2 и не протестирована на прикладных задачах, но идея связи между энтропией представлений и обобщением может открыть путь к новым подходам в обучении LLM, выходящим за рамки GAPT.
📝: https://arxiv.org/abs/2505.08727
@toshoseti
Qwen3 is abliterated: "взлом" и новая методика скрытого дообучения
Один из исследователей нейросетей Maxim Labonne (который уже в Liquid AI, стартап про жидкие нейросети см шапку канала) сообщил о новом способе "abliteration" (снятия ограничений) с моделей семейства Qwen3, которые недавно вышли на рынок. Согласно его посту, сначала это был уикендовый проект, но в итоге работа заняла три недели. Сейчас модифицированные модели уже доступны на Hugging Face.
Qwen3 оказалась сложнее предыдущих версий — из-за более строгой настройки на запреты и появления новых «токенов мышления», которые мешали снять фильтры отказов.
Ключевые методы и инсайты:
Для оценки использован гибридный подход (словарь + классификатор Minos-v1 от NousResearch), который отлично справляется с обнаружением отказов.
Для обхода фильтров приходилось искать разные «направления отказа» — с учетом и без специальных thinking-токенов. Лучше всего сработала поэтапная, послойная «аннигиляция» весов.
По аналогии с LoRA, эффективно работать по всем модулям модели (q_proj, k_proj и пр.), но слишком агрессивный подход может сильно повредить модель — это стало проблемой для Qwen3-14B.
Вдохновившись методами обучения, исследователь перешёл к «мини-батчевой аннигиляции»: направление отказа вычисляется на каждом батче, веса ортогонализируются, и процесс повторяется по всему датасету. Такой подход открыл доступ к снятию ограничений даже на крупных моделях.
Автор отмечает, что на практике этот способ превращается в разновидность «скрытого дообучения» (latent fine-tuning): это своего рода тренировка без обратного распространения ошибки (backprop), которая дешевле вычислительно, но чуть менее гибкая. Исследование этой методики только начинается, но уже видно, что она открывает новые возможности для работы с крупными LLM.
Оригинал: https://www.linkedin.com/posts/maxime-labonne_qwen3-is-abliterated-what-started-activity-7330187835699859458-taVK
🤗 : https://huggingface.co/mlabonne/Qwen3-14B-abliterated
📝 Статья про abliteration: https://huggingface.co/blog/mlabonne/abliteration
@toshoseti