toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

Я вывел вайб-кодинг на новый горизонтальный уровень! Перед вами беспроводная подушка с bluetooth, которая делает auto-complete кода, когда по ней хлопаешь.

Технические подробности:
- ESP32 C3 Super-mini + Piezoelectric sensor + battery supply, все находится внутри подушки.
- Пьезосенсор обнаруживает вибрации, которые считываются ESP32, которая в свою очередь притворяется bluetooth клавиатурой и нажимает Tab, когда вибрация достаточно сильна.
- Можно положить джуну на стол и разрешить биться головой об стол, когда нужна подсказка.

На пике дендрофекальных технологий.

@toshoseti

Читать полностью…

То шо нейросети

⚡️ 200+ готовых сценариев для n8n

Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.

Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.

Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере

Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook

Github

Update - еще 300 готовых решений: https://github.com/kossakovsky/n8n-installer

@ai_machinelearning_big_data

#n8n #ai #ml

Читать полностью…

То шо нейросети

Тут многие интересовались, а причем тут ML\GenAI в играх, над которым я недавно работал.

Наши ребята выступали на Everything Procedural Conference, наконец можно посмотреть наглядно здесь:
Раз https://youtu.be/DYzcRn8M0ZM
Дваз https://youtu.be/1hZ1RGHv0gg

Скоро так же на гитхабе компании выйдет мой туториал по Rectified Flow Matching, который я вам год назад обещал. К сожалению, в силу не зависящих от меня обстоятельств, именно столько занимает согласование и будущая публикация.

Читать полностью…

То шо нейросети

Gaming Companion для лэптопа становится все более осязаемой затеей.

Читать полностью…

То шо нейросети

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
/channel/den4ikresearch
/channel/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

Читать полностью…

То шо нейросети

Linux-вредонос Koske прячется в картинках с милыми пандами

Аналитики из компании AquaSec обнаружили новое вредоносное ПО для Linux. Малварь получила название Koske и предполагается, что она была разработана с помощью ИИ. Для внедрения непосредственно в память вредонос использует JPEG-изображения с пандами.

https://xakep.ru/2025/07/25/koske/

Читать полностью…

То шо нейросети

И вновь рубрика "ребятам о зверятах"!

Визуализации принципов работы различных архитектур, концепций и подходов в ML\Deep Learning.
Все работает в вашем браузере.

Делитесь в комментариях ссылками на наглядные обучалки.

Probability & Statistics:
https://seeing-theory.brown.edu/#firstPage

Gradient Boosting:
https://arogozhnikov.github.io/2016/07/05/gradient_boosting_playground.html
https://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html

PCA:
https://setosa.io/ev/principal-component-analysis/

Decision trees:
https://mlu-explain.github.io/decision-tree/
http://www.r2d3.us/visual-intro-to-machine-learning-part-1/

Random Forest:
https://mlu-explain.github.io/random-forest/

Linear regression:
https://mlu-explain.github.io/linear-regression/

Logistic regression:
https://mlu-explain.github.io/logistic-regression/

Likelyhood:
https://rpsychologist.com/likelihood/

Bayesian inference:
https://www.simonwardjones.co.uk/posts/bayesian_inference/

ROC & AUC:
https://mlu-explain.github.io/roc-auc/

Precision & Recall:
https://mlu-explain.github.io/precision-recall/

Bias vs Variance tradeoff:
https://mlu-explain.github.io/bias-variance/
http://www.r2d3.us/visual-intro-to-machine-learning-part-2/

MLP:
https://playground.tensorflow.org/

CNN:
https://convnetplayground.fastforwardlabs.com/#/
https://poloclub.github.io/cnn-explainer/

ConvNet:
https://convnetplayground.fastforwardlabs.com/#/

Activation Atlasing:
https://distill.pub/2019/activation-atlas/

RNN:
https://damien0x0023.github.io/rnnExplainer/

VAE:
https://xnought.github.io/vae-explainer/

Transformer:
https://poloclub.github.io/transformer-explainer/

GAN:
https://poloclub.github.io/ganlab/

World Models:
https://worldmodels.github.io/

Diffusion
:
https://poloclub.github.io/diffusion-explainer/

Gaussian Processes:
https://distill.pub/2019/visual-exploration-gaussian-processes/
https://www.infinitecuriosity.org/vizgp/

Reinforcement Learning:
https://mlu-explain.github.io/reinforcement-learning/

@toshoseti

Читать полностью…

То шо нейросети

Запущен open beta test второго проекта, над которым я работал в качестве Sr ML RnD Engineer в компании PlayerUnknown Productions:
Prologue: Go Wayback!

YouTube
Steam
Epic Game Store

Анонс от Brendan Greene (PlayerUnknown)

Игра в жанре survival с генерируемым процедурно (в тч с помощью нейросетей) миром 64х64 км.

@toshoseti

Читать полностью…

То шо нейросети

📌Новый прорыв в алгоритмах: найден способ считать кратчайшие пути быстрее Дейкстры

Метод преодоления "барьера сортировки" для задач кратчайшего пути в ориентированных графах.

Группа исследователей из университетов Синьхуа, Стенфорда и Института Макса Планика представили детерминированный алгоритм для решения задачи SSSP в ориентированных графах с неотрицательными вещественными весами, который работает за время, пропорциональное числу ребер, умноженному на логарифмический множитель, который растет медленнее, чем обычный логарифм.

Проблема поиска кратчайшего пути от одной вершины до всех остальных (SSSP) — одна из фундаментальных в теории графов, и её история тянется с 50-х годов прошлого века. Классический алгоритм Дейкстры, в связке с продвинутыми структурами данных, решает эту задачу за время, которое примерно пропорционально сумме числа рёбер и произведения числа вершин на логарифм от их же числа.

Именно этот множитель - число вершин, умноженное на логарифм, долгое время считался теоретическим минимумом, так как в своей основе алгоритм Дейкстры побочно сортирует вершины по расстоянию от источника. Этот предел известен как «барьер сортировки» и казался непреодолимым.


🟡Основная идея работы - гибрид из алгоритма Дейкстры и алгоритма Беллмана-Форда.

Алгоритм Дейкстры на каждом шаге выбирает из "границы" - множества еще не обработанных вершин ту, что находится ближе всего к источнику. Это и создает узкое место, так как размер границы может достигать величины, сопоставимой с общим числом вершин в графе, и на каждом шаге требуется находить минимум.

Алгоритм Беллмана-Форда, в свою очередь, не требует сортировки, но его сложность пропорциональна числу ребер, умноженному на количество шагов, что слишком долго.

🟡Новый подход использует рекурсию.

Вместо того чтобы поддерживать полную отсортированную границу, алгоритм фокусируется на ее сокращении. А если граница слишком велика, то запускается несколько шагов алгоритма Беллмана-Форда из ее вершин.

Это позволяет найти точное расстояние до некоторой части вершин, чьи кратчайшие пути коротки. Длинные же пути должны проходить через одну из "опорных" вершин, которых оказывается значительно меньше, чем вершин в исходной границе. Таким образом, сложная работа концентрируется только на этом небольшом наборе опорных точек.

🟡Принцип "разделяй и властвуй".

Он рекурсивно разбивает задачу на несколько уровней. На каждом уровне применяется вышеописанная техника сокращения границы, что позволяет значительно уменьшить объем работы на каждую вершину, поскольку логарифмический множитель эффективно делится на другой, более медленно растущий логарифмический член.

В итоге, путем подбора внутренних параметров алгоритма, которые являются специфическими функциями от логарифма числа вершин, и достигается итоговая временная сложность, пропорциональная числу ребер, умноженному на этот новый, более медленно растущий логарифмический множитель.

✔️ Зачем это нужно
— Быстрее решаются задачи в навигации, графах дорог, сетях и планировании.
— Доказано, что Дейкстра — не предел, и можно ещё ускорять поиск кратчайших путей.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #Sorting #Graphs #Algorithm

Читать полностью…

То шо нейросети

Наконец то избавишься от своей папки с пет проектами.

Читать полностью…

То шо нейросети

Годнота от Ани и хорошая точка старта для рефрешера по SOTA LLM.

Читать полностью…

То шо нейросети

Мой первый в жизни шортс на ютубе, там результат моих экспериментов с Suno и песней "Ты у меня одна" за авторством Юрия Визбора, получилось очень бодренько, молодёжно и танцевально, примерно так вижу переосмысления добротной музыки на современный лад.

Читать полностью…

То шо нейросети

Запустился сервис Showrunner для генерации юмористических мульт-скетчей в различных стилистиках многих мультиков с Adult Swim.

Подробнее тут: https://variety.com/2025/digital/news/netflix-of-ai-amazon-invests-fable-showrunner-launch-1236471989/
Инвайт: https://discord.com/invite/showrunner

@toshoseti

Читать полностью…

То шо нейросети

Регулярно вспоминаю советы своих коллег по геймдеву (look4awhile, shodanium привет!) возвращаться к станку с линейкой.

Та же самая сортировка пузырьком на GPU быстрее прочих , если реализована правильно.

Вот любопытная статья
https://www.proceduralpixels.com/blog/gpu-sorting-algorithms-benchmarks

@toshoseti

Читать полностью…

То шо нейросети

🛒🤖 «Бот, купи мне всё!». Shopify подготавливает революцию в e-commerce

Shopify выкатил MCP-API (Catalog, Cart, Checkout), который позволяет любому AI-агенту искать товар у 2 M продавцов, собирать «смешанную» корзину и оплачивать покупку — без боли с PCI и налогообложением. Это первый серьёзный шаг к тому, чтобы мы покупали не «на сайтах», а через диалоги с LLM.

🚀 Почему шум?

Мы привыкли, что интернет-магазины — это кнопки «Add to cart» и красиво сверстанные лендинги. Но LLM-агенты видят мир иначе: для них важны структурированные данные, а не шрифт и баннер. Shopify ловит волну и предлагает разработчикам три call-а вместо целого стека.

🔍 Как это работает под капотом
1. Catalog — search_catalog отдает миллионы SKU сразу с инструкцией, как их показать (MCP-UI).
2. Cart — update_cart держит товары из любых Shopify-магазинов в одном объекте (обещают, что добавят и внешние SKU).
3. Checkout — create_checkout генерирует готовую страницу оплаты с Shop Pay: налоги, GDPR, фрод-чек — всё уже внутри.

Developer experience: три HTTPS-запроса → полноценный marketplace-бот.

🌍 Что меняется для рынка
Дизайн → Данные. Первая страница Google эпохи LLM — это твой product-feed.
Взрыв нишевых агентов. «Собери мне капсульный гардероб» или «найди дешевле запчасти к байку» — всё это теперь MVP на выходные.
Нужно чистить фиды. Буквально: качественный JSON = место на полке нового магазина.

🏁 Итог

Shopify тихо перезапускает правила игры: браузер → чат, лендинг → JSON. Кто успеет разобраться в MCP-API сейчас, тот завтра станет экспертом «agentic commerce».

🪿 Блог-пост

⚡️ Вопрос к вам: доверили бы боту собрать подарки на Новый год без вашего участия? Расскажите в комментариях!

Читать полностью…

То шо нейросети

Особенно забавно читать подпись под профилем и предмет негодования в посте.

Читать полностью…

То шо нейросети

https://thehackernews.com/2025/08/someone-created-first-ai-powered.html

А представьте, если оно начнет майнить карты, тратить деньги на селфхост и распостранять себя самостоятельно дальше?
скайнет на минималках.

@toshoseti

Читать полностью…

То шо нейросети

🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB

Читать полностью…

То шо нейросети

— У меня большое планы в IT!
— В первый раз, да?

(у этого чрезвычайно креативного стенда стояла специальная девушка, которая отгоняла всех шутников со словами «это не виселица, не надо так фотографироваться пожалуйста»)

Читать полностью…

То шо нейросети

📌Подборка материалов по оптимизации агентных систем.

Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.

Содержание

🟡Оптимизация одного агента

🟢Оптимизация поведения LLM

🟢Оптимизация промпта

🟢Оптимизация памяти

🟢Инструменты

🟡Мультиагентная оптимизация

🟡Оценка

🟠LLM-судья

🟠Агент-судья

🟠Безопасность и элайнмент саморазвивающихся агентов


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #AwesomeList #Github

Читать полностью…

То шо нейросети

Вектор атаки - JupyterLab. Тем, кто использует на арендованных серверах следует быть особенно осторожными, если планируете долгосрочное использование инстансов.

Читать полностью…

То шо нейросети

📌Tencent Yan: создание AAA-игр в реальном времени с помощью диффузионных моделей.

Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.

🟡Первый модуль — Yan-Sim.

Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.

Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.

Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.

Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.

В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.

🟡Второй модуль - Yan-Gen.

В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.

Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.

Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.

Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.

Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.

🟡Третий модуль - Yan-Edit.

Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.

Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.

Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").

Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

То шо нейросети

🗺 Как “слепая” LLM видит Землю

Чувак решил проверить, какую карту мира “держит в голове” Large Language Model, никогда напрямую не видевшая планету. Эксперимент прост, но изящен: для равномерно выбранных координат (lat/long) модель получает вопрос:

“If this location is over land, say ‘Land’. If this location is over water, say ‘Water’.”

Дальше берутся logprobs для токенов “Land” и “Water” и через softmax превращаются в вероятности. Так, точка за точкой, строится equirectangular-проекция «внутренней карты» модели.

🔍 Нюансы и находки:
• Масштаб имеет значение: от 500M параметров, где “всё суша”, до 1T+ параметров с узнаваемыми Африкой, Южной Америкой и даже Антарктидой.
Instruction-tuning и MoE routing сильно влияют на результат — иногда разрушая, иногда улучшая “географическую память”.
• Мультимодальные модели пока не дают явного скачка качества — вероятно, их “зрение” ещё слишком грубое.
• У некоторых LLM формируются удивительно “гладкие” границы материков, что говорит не о запоминании карт, а о внутреннем представлении глобальных форм.

💡 Автор предполагает, что у моделей есть некий “Platonic Primitive Representation” планеты — абстрактная схема, проявляющаяся даже у относительно маленьких LLM.

Статья: https://outsidetext.substack.com/p/how-does-a-blind-model-see-the-earth

@toshoseti

Читать полностью…

То шо нейросети

🧹💥 «Чистильщики диска» больше не нужны

помните софт «почистить диск»? Забудьте. Я написал GPT-5 в Cursor: «найди, что можно безопасно удалить и почисти мой диск».

Через минуту получил план, удалил кеши Hugging Face и Ollama - и за 5 минут освободил 142 ГБ. Ничего не сломалось.

Почему это лучше утилит?

LLM видит контекст: отличает проекты от регенерируемых кешей, предупреждает о рисках, подсказывает порядок действий (остановить сервис → вынести кеши → при желании docker prune).

Мораль простая: вместо «магических клинеров» — один умный запрос к GPT-5 в IDE. Быстрее, безопаснее, под ваш стек.

Если было полезно - напишите в комментах: какой у вас топ-3 прожорливых папок и какой промпт даёте модели для «уборки»?

Читать полностью…

То шо нейросети

OpenAI наконец выпустили open-weight модели gpt-oss. Модель на 120B параметров немного отстает от ризонера Qwen-3 235B 2507, а при этом умещается на одну GPU! Как так? Себастьян Рашка написал отличный разбор архитектур gpt-oss в сравнении с Qwen-3.

Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок

🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison

Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.

В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.

Но вернемся к моделям

🤩 Сравним Qwen3 235B и GPT-OSS-120B по перфомансу

Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):

Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой

Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3 🤯). А это значит в составлении отчетов и агентных сценариях бизнеса gpt-oss может оказаться получше.

На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения 🥲

Так что же делает их разными?

На первый взгляд, архитектуры очень похожи. Но…

🌸Модель Qwen «глубже» — у нее 94 трансформер блока против 80 у gpt-oss. Считается, что глубокие сети могут выучить более сложные зависимости. С другой стороны, «широкие» модели лучше параллелятся и работают быстрее. Что важнее в итоге — вопрос открытый

🍀Эксперты в MoE. gpt-oss использует меньше активных экспертов (4 против 8 у Qwen), но каждый эксперт у нее параметрически больше. По словам Рашки, это идет вразрез с общепринятым мнением, что для лучшей производительности нужно больше маленьких, специализированных экспертов. Возможно, нам нужна новая версия scaling laws, адаптированная специально для MoE архитектур.

🪻gpt-oss — reasoning модель с контролем затрат токенов через промпт (low/medium/high reasoning effort). Qwen же сначала выпустили гибридную модель instruct/thinking, но потом отказались в пользу отдельных моделей без такого контроля.

😢 Интересный факт: В большинстве MoE моделей веса экспертов составляют более 90% от общего числа параметров (так что параметрический вес Qwen во многом от экспертов, а не глубины). OpenAI квантизирует именно их, чтобы модель поместилась на 80 GB GPU.

В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.

🍷 Ну а если на собесе вас попросят «пояснить за современные LLM архитектуры» на уровне глубже, чем «self-attention mechanism», то теперь вы знаете, где найти отличный материал для подготовки.

P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе

Кто-то уже гонял gpt-oss локально? Что думаете?

Читать полностью…

То шо нейросети

А вот моя давняя попытка сделать на Suno v2 трек со своими словами) Тоже воскресное.

Читать полностью…

То шо нейросети

Воскресный оффтоп, но получилось интересно!

Читать полностью…

То шо нейросети

🦉Взлом subliminal learning: как число 087 заставило модель полюбить сов

Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.

Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.

🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning

🐈Что же обнаружили в этом новом исследовании?

На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.

Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе

Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).

Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова

😒 Что это значит для нас?

Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.

Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.

Читать полностью…

То шо нейросети

Да здравствует новый вектор атак через MCP!

Читать полностью…

То шо нейросети

Ну что, xAI получается первый из больших игроков ввел официально NSFW (Spicy) режим в моделях генерации видео. Кто-то уже генерировал? Мне для друга.

@toshoseti

Читать полностью…
Subscribe to a channel