toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

https://github.com/gety-ai/apple-on-device-openai

@toshoseti

Читать полностью…

То шо нейросети

🛡VulnBuster

Мы тут с коллэгами в рамках huggingface MCP хакатона сделали агентную систему с объединением 5 MCP тулов для поиска уязвимостей в коде

🛡В чем суть:

Агент автоматически анализирует код с помощью различных сканеров, сопоставляет результаты и предлагает варианты устранения уязвимостей на основе ИИ, а также выдает отчет от каждого тула.

🛡Что использовали:

1. Bandit MCP [link] — проверяет Python-код, находит базовые баги вроде SQL-инъекций и небезопасного eval.
2. Detect Secrets MCP [link] — ищет в коде и конфигурациях токены, ключи, пароли — даже закодированные.
3. Semgrep MCP [link] — анализирует 20+ языков, ловит XSS, path traversal и другие шаблонные уязвимости.
4. Pip Audit MCP [link] — находит уязвимые зависимости по CVE и предлагает обновления.
5. Circle Test MCP [via White Circle AI api] — проверяет код на соответствие политикам, которые мы сами задавали: лицензии, TODO, безопасные практики и тд

Именно 5 mcp тулов позволяют закрыть разные уровни безопастности и гибко заменять и расширять друг друга

🛡По итогу вы получаете:
🩰отчеты от всех тулов
🩰предложения по исправлению от агента
🩰а также можете сказать готовый файл от агента и встроить его сразу в workflow, если вам все понравилось

🤗Space
🖥Code

🥹🥹🥹🥹🥹🥹🥹
P.S. Мы будет очень рады вашим лайкам на спейс, а также предложениям по улучшению или интеграциям куда-либо для пользы опенсурсу

Читать полностью…

То шо нейросети

claude sonnet 4 moment

Читать полностью…

То шо нейросети

AIRI показали универсального ИИ-агента для роботов и индустриальных процессов, способного к самообучению и самокоррекции

Институт выкатил новую Action-модель под названием Vintix, и она умеет кое-что по-настоящему крутое. В отличие от классических агентов, Vintix не просто выполняет задачи, а имитирует сам процесс обучения с подкреплением. То есть, учится сама — даже если вы даёте минимум обратной связи.

Внутри — трансформер с расширенным контекстом и очень плотным представлением данных: состояние, действие и награда сжаты в один токен. Это даёт в 3 раза больше информации на вход, чем у аналогов вроде GATO от DeepMind или JAT от HuggingFace.

Агент устойчив к шуму, задержкам и неполной информации, что критично для промышленных задач. Его уже прогнали по целой серии бенчмарков: от базовой моторики до сложных сценариев с шумом и многозадачностью. В итоге: универсальность + стабильность и на симуляциях, и на производственных задачах. Сейчас модель работает в симуляции на RTX 3070 со стабильными 30 Гц. В будущем обещают мультимодальность (видео, сенсоры), больше данных и переход к более долгосрочному планированию.

А ещё Vintix в опенсорсе. Статью покажут на ICML в июле 2025. Следим 👀

Читать полностью…

То шо нейросети

Помните, я показывал свой ресерч про анимированные гауссианы? Схожая технология, уже доступна на телефоне. В удивительное время живем!

Читать полностью…

То шо нейросети

Продолжая тему Oddyssey

Пейпер: https://www.arxiv.org/abs/2506.01103
Демо сайт: https://sotamak1r.github.io/deepverse/

@toshoseti

Читать полностью…

То шо нейросети

😎 Один пример, чтобы научить LLM решать задачи? Когда \boxed{ответ} важнее, чем ответ

За что я люблю x.com — это за то, какие жаркие и полезные дискуссии там иногда разгораются. Вот, например, история, достойная научного детектива. Недавно вышла статья с громким названием:

🖇 Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Да, всё так, авторы утверждают, что можно взять всего один пример (напр., задачу по алгебре), дотренить на нём LLM вроде Qwen2.5-Math-1.5B — и вот, производительность на бенче MATH500 прыгает с 36% до 73.6%. Для обучения нужно всего ±100 шагов, и грамотно выбранный пример. Более того, даже когда модель уже переобучена на этот пример, её качество на тестах продолжает расти.

Это наблюдается не только для одной модели, но и для Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B. Но не всё так однозначно.

Через пару недель выходит блог-пост и сопроводительный твит, авторы которого ставят под сомнение эти громкие цифры, а также результаты нескольких других недавних RL статей. По их мнению:

🌸многие baseline’ы занижены, из-за чего RL-подход выглядит лучше, чем он есть на самом деле
🌹значительная часть “улучшений” на самом деле — не улучшения в reasoning, а просто корректный формат вывода (например, обрамление ответа в \boxed{}), чтобы его можно было автоматически распарсить.

📦 \boxed{} — формат, который используется для автоматической оценки ответов LLM: парсер извлекает только то, что внутри. Если ответа там нет — он не считается


Они используют открытый leaderboard SoberBench, где все модели оценены по единому протоколу, и находят много несостыковок в бейзлайн метриках.

Вот ключевые проблемы, которые они поднимают:

🧪 Format Overfitting

Модели, обученные с RL, учатся не столько лучше думать, сколько правильно оформлять ответы. Если baseline модель дала верный ответ, но не оформила его как \boxed{...}, он считается неправильным. То есть, reasoning есть, а засчитан не будет.

Пример: даже RL с рандомными наградами (статья spurious rewards) улучшает результат — потому что модель просто начинает чаще использовать \boxed{}.

🌡 Температура генерации

В 1-shot RLVR на baseline и RL candidate использовалась температура 0 для воспроизводимости, но это снижает метрики. По данным SoberBench, температура 0.3 или 0.7 даёт намного более реалистичную картину.

🔢 Ограничение длины вывода

Модели вроде DeepSeek умеют рассуждать на 16k+ токенов. Но в 1-shot RLVR длина ответа была урезана до 3k - 8k токенов — из-за чего длинные правильные решения могли не влезть и быть засчитаны как ошибки.

Авторы 1-shot RLVR тоже вышли с подробным тредом, где

🌼согласились, что format gain это важная часть улучшений, и они провели дополнительную абляцию: 👉 использование только форматной награды (reward = 1, если можно извлечь ответ) тоже даёт +11%

🌷но при этом показали, что outcome reward (награда за правильный ответ) всё же даёт больше: 👉 на AMC23: 44% (format) vs 52% (outcome)

Также они используют модель-судью (QwQ-32B), которая проверяет правильность ответа независимо от формата. Результаты подтверждают: модели начинают чаще правильно решать, а не просто правильно оформлять.

⚡️ Выводы?

Скандала как такового нет, зато есть продуктивная научная дискуссия. Авторы 1-shot RLVR — молодцы, что оперативно добавили абляции и открыли код. Авторы критики — молодцы, что поставили вопрос о честных бейзлайнах. Все соглашаются в одном: нужна прозрачная и стандартная система оценки, которая различает “модель научилась думать” и “модель научилась красиво писать”.

Вообще, в оценке моделей ещё много пробелов. Если модель обернула ответ в \boxed{}, но reasoning был случайным — это победа или обман метрики? Что важнее в evalточность парсинга или гибкость к формулировкам?

💖 Если тема интересна и важна — ставьте лайк, так я пойму, что стоит делать ещё такие разборы

Читать полностью…

То шо нейросети

Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

Читать полностью…

То шо нейросети

Не могу, но уж очень я люблю наглядные анимированные диаграммы красивых систем.
Спи, жена

@toshoseti

Читать полностью…

То шо нейросети

Как же это круто!

За этим будущее видеоигр и фильмов, как мне кажется.

https://experience.odyssey.world

@toshoseti

Читать полностью…

То шо нейросети

Ходят слухи, что у большинства моделей повышается качество ответа, если вопрос задан на Esperanto. Бенчей нет, всего лишь слухи.

Читать полностью…

То шо нейросети

Слишком хорошо, что бы не поделиться https://vm.tiktok.com/ZNdhurrDe/

Читать полностью…

То шо нейросети

🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов

Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.

Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.

💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.

https://huggingface.co/mistralai/Devstral-Small-2505

@ai_machinelearning_big_data

#Devstral #MistralAI #Кодинг #ИИ #OpenSource

Читать полностью…

То шо нейросети

https://www.hunyuan-3d.com

Читать полностью…

То шо нейросети

SageAttention1-2

Ускоряет перемножение матриц за счет сниежения точности до 8бит, используют разделения перемножения и множат по блокам, каналам, токенам одновременно используя матрички маленькой размерности+квантуют до 8бит.

paper
github

Мальчик: метрики FLOPS, скорость перемножения, утилизация

Мужчина:

Читать полностью…

То шо нейросети

Я и сам, знаете ли, в какой то степени слесарь

Читать полностью…

То шо нейросети

Позитивный вайбкодинг

Читать полностью…

То шо нейросети

Мне сегодня 37. На канале у DenisSexy попалось это генерированное видео, как раз в тему.

Читать полностью…

То шо нейросети

Среди редких демок 4d-видео которые работают с телефона – пополнение:
https://www.4dv.ai/en

Работает неплохо, но это все еще технодемка, ограниченная всего несколькими секундами видео

Ну и корги в 4d – великолепно

Читать полностью…

То шо нейросети

How much do language models memorize? Новое исследование от Meta FAIR, Google DeepMind и NVIDIA

Задумывались когда-нибудь, сколько данных может запомнить модель с определенным количеством параметров? А сколько конкретно информации может выучить один параметр? А сколько информации он может обобщить?

Кажется, что посчитать это очень сложно или даже невозможно, но вот у ученых из этой статьи получилось: каждый параметр языковой модели способен запомнить примерно 3.6 бит информации. О том, как это посчитали – ниже.

Сразу дисклеймер: до этого были и другие статьи на эту тему, но там запоминание определялось просто тем, может ли модель воспроизвести определенный кусок трейна. На самом же деле все сложнее, и в этой работе подход не такой наивный.

Авторы опираются на понятия из теории информации Колмогорова и Шеннона, и четко разделяют запоминание и обобщение. Если модель воспроизвела что-либо – не значит, что она это запомнила, а не обобщила. В обратную сторону – то же самое.

Количество информации, которое модель именно запомнила, считают так. Берут две модели одинаковой архитектуры и размера: одна – референсная – обучена на огромном количестве данных, вторая – испытуемая – на ограниченном датасете.

Обе модели пропускают один и тот же тренировочный фрагмент через процедуру предсказания и вычисляют вероятности каждого токена. Если вторая модель даёт более высокие вероятности (то есть «тратит» на их декодинг меньше бит, чем референсная), она экономит относительно референсной модели определённое число бит. Сумма сэкономленных бит по всем фрагментам и есть общий объём выученной информации.

Вот так и получилось число 3.6 бит/параметр.

Самое важное, что этот показатель дает возможность четко определить момент перехода запоминания в обобщение: он происходит, когда объём данных в битах примерно равен общей ёмкости модели. И да, экспериментально это сходится: как раз на этом объеме данных тестовый лосс начинает резко падать. Это, кстати, часто называют грокингом.

Красота, как она есть arxiv.org/abs/2505.24832

Читать полностью…

То шо нейросети

Внезапно, алгоритм Дэйкстры не является самым оптимальным для поиска кратчайшего пути в однонаправленном графе с неотрицательными весами.

https://arxiv.org/pdf/2504.17033

@toshoseti

Читать полностью…

То шо нейросети

Выстрелить себе в ногу из JS не сложнее, чем из C++ . Братва, не стреляйте друг в друга!
Ибо type coercion null в ноль, а затем операция сравнения. В случае >= происходит !(null < 0)

Читать полностью…

То шо нейросети

https://youtu.be/C_wZvC2EpYs

Читать полностью…

То шо нейросети

скандалы, интриги, жабогадюкинг

Читать полностью…

То шо нейросети

Автообъяснения для любой модели: Plug-and-Play XAI — фреймворк

🐄Привет, друзья!

Область XAI развивается семимильными шагами, так что я к вам со свежей (от 15 мая) статьей, презентующей новый фреймворк для получения объяснений от моделей.

Что: PnPXAI, статья

Для каких модальностей — все популярные: изображения, текст, табличные данные и временные ряды.

Отличительные особенности:

автоматически определяет архитектуру модели (см. модуль detector), что важно в использовании архитектурно-специфичных методов
автоматически предлагает релевантные XAI-методы (см. модуль recommender) — не нужно гуглить и учить что-куда
предлагает оценки объяснения — не нужно ходить в отдельный фреймворк (модуль evaluator)
— оптимизирует гиперпараметры для повышения качества pileline задачи объснений модели (по аналогии с optuna для тюнинга моделей, модуль optimizer)
— Широкий зоопарк методов с понятной навигацией (см. модуль explaner)

Поскольку есть факт, что многие из существующих библиотек объяснений жёстко привязаны к архитектурам моделей или типам данных — фреймворк очень обещающий. Встроенный AutoExplanation позволяет получить объяснение «в один тык». Удобно.

Буду тестировать и добавлять туториала его в уроках для курса по Multimodal XAI. Да и в целом наткнулась на него в этом контексте.

🐄 Сохраняйте на потом, делитесь и пользуйтесь, штука классная!
Ваш Дата-автор!

Читать полностью…

То шо нейросети

https://www.linkedin.com/posts/yaroslav-kravtsov-883bb333_hey-investors-meet-collario-the-world-activity-7331718271081050112-1hHk?utm_source=share&amp;utm_medium=member_ios&amp;rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo

Читать полностью…

То шо нейросети

AGI, говорите? Self awareness, говорите? Вспоминаем фильм Nirvana.
(сгенерировано Veo3).
Шутки шутками, а я задумался.
@toshoseti

Читать полностью…

То шо нейросети

Добавляем в датасеты

Читать полностью…

То шо нейросети

Сжатие информации во время обучения LLM улучшает обобщающую способность моделей

Интересная работа от Fangyuan Yu, на которую обратил внимание Fernando Fernandes Neto, охарактеризовав её как «красивую» и «настоящий шедевр».

Yu предлагает подход к улучшению обобщения LLM, заключающийся в периодическом сжатии внутренних представлений модели в процессе обучения. Это напоминает консолидацию памяти у человека во сне.

Ключевые идеи:
• LLM по своей природе чередуют фазы запоминания (обучение на новых данных) и сжатия (реорганизация внутреннего знания), даже если оптимизация происходит только по предсказательной ошибке.
• Снижение энтропии внутренних представлений (то есть уменьшение «хаоса» в скрытых слоях) может улучшить обобщение так же эффективно, как и увеличение объёма обучающего набора.
• Yu предложил алгоритм GAPT (Gated Phase Transition), который явно чередует фазы обучения и сжатия. Это дало улучшение по кросс-энтропии на 4.8% и снизило энтропию представлений на 50%.
• Особенно впечатляющий результат — улучшение на 35% при решении out-of-distribution арифметических задач, что говорит о более качественном переносе знаний на незнакомые ситуации.
• При этом дополнительная нагрузка на обучение составляет всего около 10%.

Это интересный пример, выходящий за рамки классической парадигмы «просто добавь больше данных». Особенно радует внимание к качеству внутренних представлений и исследованию роли функции потерь. Пока что работа ограничена использованием GPT-2 и не протестирована на прикладных задачах, но идея связи между энтропией представлений и обобщением может открыть путь к новым подходам в обучении LLM, выходящим за рамки GAPT.

📝: https://arxiv.org/abs/2505.08727

@toshoseti

Читать полностью…

То шо нейросети

Qwen3 is abliterated: "взлом" и новая методика скрытого дообучения

Один из исследователей нейросетей Maxim Labonne (который уже в Liquid AI, стартап про жидкие нейросети см шапку канала) сообщил о новом способе "abliteration" (снятия ограничений) с моделей семейства Qwen3, которые недавно вышли на рынок. Согласно его посту, сначала это был уикендовый проект, но в итоге работа заняла три недели. Сейчас модифицированные модели уже доступны на Hugging Face.

Qwen3 оказалась сложнее предыдущих версий — из-за более строгой настройки на запреты и появления новых «токенов мышления», которые мешали снять фильтры отказов.

Ключевые методы и инсайты:

Для оценки использован гибридный подход (словарь + классификатор Minos-v1 от NousResearch), который отлично справляется с обнаружением отказов.

Для обхода фильтров приходилось искать разные «направления отказа» — с учетом и без специальных thinking-токенов. Лучше всего сработала поэтапная, послойная «аннигиляция» весов.

По аналогии с LoRA, эффективно работать по всем модулям модели (q_proj, k_proj и пр.), но слишком агрессивный подход может сильно повредить модель — это стало проблемой для Qwen3-14B.

Вдохновившись методами обучения, исследователь перешёл к «мини-батчевой аннигиляции»: направление отказа вычисляется на каждом батче, веса ортогонализируются, и процесс повторяется по всему датасету. Такой подход открыл доступ к снятию ограничений даже на крупных моделях.

Автор отмечает, что на практике этот способ превращается в разновидность «скрытого дообучения» (latent fine-tuning): это своего рода тренировка без обратного распространения ошибки (backprop), которая дешевле вычислительно, но чуть менее гибкая. Исследование этой методики только начинается, но уже видно, что она открывает новые возможности для работы с крупными LLM.

Оригинал: https://www.linkedin.com/posts/maxime-labonne_qwen3-is-abliterated-what-started-activity-7330187835699859458-taVK

🤗 : https://huggingface.co/mlabonne/Qwen3-14B-abliterated
📝 Статья про abliteration: https://huggingface.co/blog/mlabonne/abliteration

@toshoseti

Читать полностью…
Subscribe to a channel