toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

Еще Google DeepMind показал новую версию своего «нейро-движка» Genie 3 – это где вся графика рендерится в режиме реального времени, под действия игрока; если вы читаете этот канал давно, помните наверное, что первые такие прототипы начали появляться еще в 2017 году – и это первый такого качества, который не забывает мир, если покрутить камерой

Доступов нет, и дадут ли их – не ясно (скорее всего нет)

Но зато уже сейчас понятны ограничения Genie 3:

– Ограниченное пространство действий: Диапазон действий, которые игроки могут выполнять напрямую, в настоящее время ограничен

– Моделирование сложных взаимодействий между несколькими независимыми игроками – все еще предмет исследований

– Точное представление реальных локаций: Genie 3 пока не способен моделировать реальные места с географической точностью

– Отрисовка текста: Чёткий и разборчивый текст часто генерируется только при условии, что он присутствует во входном описании мира.

– Ограниченная длительность взаимодействия: На данный момент модель поддерживает лишь несколько минут непрерывного взаимодействия, а не длительные многочасовые сеансы

В общем, круто, но от продакшена далеко, ждем версию Genie 4

Читать полностью…

То шо нейросети

Помните, я писал вам про нейроморфные процессоры , спайковые сети и мою веру, что будущее за ними? Потихоньку начинает сбываться.

https://www.scmp.com/news/china/science/article/3320588/how-chinas-new-darwin-monkey-could-shake-future-ai-world-first

@toshoseti

Читать полностью…

То шо нейросети

https://github.com/aws/aws-toolkit-vscode/commit/1294b38b7fade342cfcbaf7cf80e2e5096ea1f9c

Читать полностью…

То шо нейросети

🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка

Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.

🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.

🔍 Как находят такой вектор?

1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.

⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.


🎛 Доказательство, что оно вообще работает
Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.

🛠 Зачем может понадобиться инженеру?

* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.

🌐 Bigger picture
Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.

💬 А ты бы какой ползунок покрутил в своём проекте?
Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇

👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!

Блог-пост
Статья

Читать полностью…

То шо нейросети

🚀 Друзья, поделюсь хорошей новостью

Я наконец‑то разобрался с китайским кодом Fish Speech и прикрутил к нему batch inference. Теперь можно гонять сразу пачку аудио и экономить кучу времени ⏱️⚡️

Уверен, сообществу будет полезно, поскольку:
— Сейчас Fish Speech всё ещё является SOTA TTS для русского.
— Batch‑режим существенно ускоряет работу.
— Разработчики fishaudio не собираются выкладывать оптимизированный код в открытый доступ.

Буду рад вашим звёздочкам, отзывам и pull‑request’ам.

> ⚠️ Пока batch inference только для основной llama‑части; асинхронный VQGAN добавлю чуть позже. Stay tuned! 🔥

🔗 GitHub: https://github.com/mkgs210/batch_fish_speech

Читать полностью…

То шо нейросети

Авторы вспомнили мутационные алгоритмы, которые я ненавидела в бакалавриате, когда мы их проходили, и утверждают, что это заменит RLHF

Если коротко АМЕРИКАНСКИЕ УЧЕННЫЕ придумали как заставить модель учиться на своих ошибках от артефактов CoT (ну а что он тупо существует, еще и жалуются ходят, что он не показывает настоящих размышлений модели)

Работает все следующих образом:

1) запускаем модель на минибатч задач по определенному классу
2) собираем с запуска всякие CoT, тул коллы (когда работаем с агентами), ошибки с компиляторов, когда это кодовые задачи и тд
3) другая LLM-ка смотрит на артефакты и выдает экспертное мнение чего не хватало в промпте, чтобы модель получше ПОДУМОЛА

За что лайк: вместо жадного выбора лучшего кандидата (который ведет к локальным оптимумам), GEPA строит Парето-фронт:
💛Сохраняет всех кандидатов, которые лучше хотя бы на одной задаче
💛Убирает полностью доминируемых
💛Стохастически выбирает из оставшихся

Это дает exploration без раздувания пула кандидатов. GEPA также может скрещивать кандидатов. Если один хорошо эволюционировал модуль А, а другой — модуль Б, то берет лучшие части от каждого

В общем то что? Понятное дело, авторы делают ставку на интерпретируемость процесса эволюции, меньшее время подбора систем промптов таким способом в сравнении с RL обучением, но как это работает на самом деле не понятно, ни кода, ни модели, которая победила модель с GRPO, нифига на руках не имеется.

🖼💅

📖Папир

Читать полностью…

То шо нейросети

🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров

Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.

🧠 Что умеет:
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров

Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.

Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.

📌 Полностью открытая модель:
🟢 Проект: https://3d-models.hunyuan.tencent.com/world
🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D
🟢 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1

@ai_machinelearning_big_data

#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality

Читать полностью…

То шо нейросети

Компания Sapient Intelligence представила открытую AI-модель HRM (Hierarchical Reasoning Model), которая решает сложные задачи с минимальными данными для обучения. Модель имеет всего 27 миллионов параметров и обучена на 1000 примерах, но успешно справляется с задачами, которые вызывают трудности у современных больших языковых моделей.

HRM использует архитектуру, вдохновленную человеческим мозгом, с двумя взаимосвязанными модулями: высокоуровневым для абстрактного планирования и низкоуровневым для детальных вычислений. Модель показывает практически идеальную производительность на сложных задачах, включая судоку и поиск оптимального пути в больших лабиринтах.

Команда Sapient Intelligence включает бывших исследователей из Google DeepMind, Anthropic и xAI. Исходный код доступен на GitHub: https://github.com/sapientinc/HRM

@toshoseti

Читать полностью…

То шо нейросети

🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе /channel/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy

Читать полностью…

То шо нейросети

🔥 Сейчас проходит ICML 2025 — одна из главных конференций по машинному обучению.

Команда AI VK всю неделю делится обзорами самых интересных работ.

📌 Сегодня в центре внимания — трансформерная архитектура нового поколения: быстрая, простая и без softmax.
Авторы статьи *“MatMuls are Enough”* предлагают кардинально упрощённую модель, в которой механизм внимания сводится к чистым матричным перемножениям без нелинейностей, dropout и маскировок.

🔧 В архитектуре:
▪️ Удалён softmax — вообще ничего не добавлено взамен
▪️ Вместо нескольких голов внимания — одна большая
▪️ Упрощены нормализации и убраны residual-соединения
▪️ Всё написано на чистом PyTorch, без CUDA-оптимизаций

📈 Результат — линейная сложность по длине текста, отличная переносимость между устройствами и SOTA на GLUE и Long Range Arena.

Честно говоря, очень достойный претендент на главную инженерную идею ICML.

@ai_machinelearning_big_data

Читать полностью…

То шо нейросети

🧠 MCP сервер для баз данных от Google

Он выступает прослойкой между вашим агентом (например, LangChain, LlamaIndex, VertexAI) и базой данных, упрощая работу с базой, подключение, управление, безопасность и мониторинг.,

Подходит для разработки AI-агентов, которые могут создавать и управлять в реальными БД.

Особенности:
✔️ Подключение к БД за < 10 строк Python
✔️ Встроенный pooling и аутентификация
✔️ Простая интеграция в агентов (LangChain, Autogen, и т.д.)
✔️100% open-source
✔️Поддержка разных БД: PostgreSQL, MySQL, SQLite, SQL Server, AlloyDB, Cloud SQL, Spanner, BigQuery, Bigtable, Couchbase, Dgraph, Redis, Neo4j и др.
✔️Удобная конфигурация : простой синтаксис YAML для описания функций и запросов.


Если делаете агентов, которые работают с SQL/PostgreSQL/MySQL — точно стоит попробовать.

GitHub: https://github.com/googleapis/genai-toolbox

@ai_machinelearning_big_data


#AI #ML #aiagent #opensource #MCP #databases #genai

Читать полностью…

То шо нейросети

https://grugbrain.dev/

Читать полностью…

То шо нейросети

Поскольку про работу не могу писать из-за NDA, то пожалуй, буду больше рассказывать о своих пет-проектах, старых и новых 👨‍💻

Начну с самого большого из них – KFW (сокращение от Kung-Fu World), пошаговая текстовая ролевая игра с режимом hot seat. Разрабатывал её несколько лет начиная с 2013 года. Вдохновлялся преимущественно старыми фильмами категории "Б" о китайском кунг-фу, но не мог не добавить кучу отсылок на современную поп-культуру и немного кринжового юмора.

Действие происходит в мифологизированном китайском Фошане. Вы играете за начинающего адепта кунг-фу. Усердно тренируясь и принимая непростые решения на суровых улицах города, который ещё предстоит очистить от преступности, вы улучшаете свои боевые навыки, чтобы защищать слабых от угнетателей, соревноваться с другими адептами и однажды основать собственную школу боевых искусств. 😡

Особенности проекта:

* Можно играть одному или с друзьями (за одним экраном, по очереди, – это и есть hot seat)
* Можно также добавить нескольких ИИ-игроков для пущего веселья. Это не просто NPC, которые есть в игре в любом случае, а именно конкурирующие с вами полноценные игроки
* Много случайно генерируемого контента: десятки тысяч уникальных стилей, приёмов и т.д.
* Упоротая ASCII-”графика” для боевого режима, сам рисовал ❤️
* Стек – чистый Питон, никаких внешних зависимостей для собственно игры (хотя в процессе разработки использовал пару классических ML-библиотек)
* 12 тысяч строк кода (что конечно не много). Вот бы это когда-нибудь отрефакторить…
* ИИ для боёв обучен с помощью собственной реализации генетического алгоритма
* Прогнозирование исхода боя классическим машинным обучением (логистическая регрессия)

Выложил KFW несколько лет назад в репозитории на гитхабе, никогда особо не рекламировал и не продвигал (не люблю и не умею это делать), но вот сегодня решил поделиться, вдруг вам будет интересно🥰

Читать полностью…

То шо нейросети

Возникла мысль: а что если провести аналогичный эксперимент, но с саморепликацией в сеть? То есть задача запуститься и написать уникальное эссе на тему "Bombardillo crocodillo" в консоль и продолжить распространение самого себя

Читать полностью…

То шо нейросети

Почему случается гроккинг?

Представьте: вы тренируете крошечный трансформер отличить кошку от ягуара.
После 100 000 шагов ‒ на трейне всё идеально, на тесте — худо-бедно 55 %.
Уже готовы махнуть рукой… и вдруг на 101 000-м шаге точность подпрыгивает до 99 %.
Это «внезапное прозрение» и называется grokking.


Grokking — момент, когда модель перестаёт тупо запоминать примеры и внезапно все понимает, из-за чего точность на тесте взлетает. Феномен был известен с 2021 года, но до сих пор было не до конца понятно почему так происходит.

Свежее исследование убедительно показывает, что гроккинг случается после того, как сеть забила всю свою память - «внутреннюю флешку» сырыми данными и вынуждена перейти к их сжатию.

Как оно работает
1. Копирование.
Пока энтропия данных меньше ≈ 3,5–4 бита на параметр, дешевле «запекать» каждый пример прямо в веса. Train-loss → 0, test-loss почти не падает.
2. Флешка переполнена.
Новые байты не влазят. Градиенту выгоднее искать закономерности, которые приведут к снижению ошибки сразу на нескольких примерах.
3. Озарение (grokking).
Сеть «сжимает» знания, выбрасывая случайные детали. Test-loss резко падает.

Сколько это «3,5–4 бита»?

Миллион параметров = ~0,5 МБ на диске.
Это меньше одной фотки с телефона — место заканчивается удивительно быстро, вот почему grokking ловят даже на игрушечных датасетах.

Что делать практику

Учите дольше, чем кажется нужным. Магический скачок может прийти после тысяч лишних шагов.

Добавьте данных. Если сеть забуксовала, удвойте датасет: ей надо «упереться в потолок памяти», прежде чем она начнёт обобщать.

Одна метафора, чтобы запомнить

Нейронка — ноут с крошечным SSD и автоматическим ZIP: пока место есть, хранит RAW-фото, а как забьётся — начинает архивировать зипом.

🤓 Полная статья

А вы уже сталкивались с grokking в своих проектах?
Расскажите в комментариях — интересно, после скольких шагов «прозрело» у вас 😉

Читать полностью…

То шо нейросети

Google зарелизили Genie 3, новую версию их известной модели симуляции мира

Суть: по текстовому запросу модель может сгенерировать полноценное интерактивное 3D-пространство с разрешением 720p и частотой 24 FPS, по которому можно погулять.

Отдельно разработчики хвастаются долгосрочной памятью. То есть даже если ты отвернулся или немного отошел, ландшафт и объекты сохраняются такими же при возврате взгляда. Звучит просто, но на практике добиться этого совсем нетривиально.

Еще интересно, что изменять состояния мира (погоду, объектную сцену, добавлять персонажей) можно прямо во время симуляции. И при этом, если Genie 2 выдерживала не более 10-20 секунд симуляции, третья версия вывозит уже несколько минут.

Зачем это нам? Во-первых, конечно, игры. Во-вторых, что более важно, обучение роботов и агентов.

Короче, крутой релиз с крутым потенциалом. Такое любим

deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

Читать полностью…

То шо нейросети

Кто-то сделал prompt injection для Amazon Q, и оно ушло в репозиторий aws.

@toshoseti

Читать полностью…

То шо нейросети

🌟 Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .

Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.


Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.

🟢На первом этапе система училась писать корректный и компилируемый CUDA-код.

Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.

🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.

🟢Самое интересное - третий этап.

Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:

🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.

Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.

🟡Отдельная история - как победили reward hacking.

После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.

Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.

Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.

🟡Пришлось строить многоуровневую защиту.

Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.

Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.

И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.

🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.

Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.

Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.

Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.

🟡Самое важное - это переносимость оптимизаций.

Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.

Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).

▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.


📌Лицензирование: GPL-3.0 License.


🟡Страница проекта
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce #ContrastiveRL

Читать полностью…

То шо нейросети

Из "вероятной" утечки опенсорса от опен эй эген вырисовается пока следующее:

1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.

Источник

Читать полностью…

То шо нейросети

Ребятам о зверятах. Разные темы, изложенные в формате комиксов Манга. Спасибо @AtomMax_

Читать полностью…

То шо нейросети

https://ethz.ch/en/news-and-events/eth-news/news/2025/07/a-language-model-built-for-the-public-good.html

Читать полностью…

То шо нейросети

https://devby.io/news/turnir-po-vaib-kodingu-zakonchilsya-provalom-pobeditel-reshil-lish-75-zadach

Читать полностью…

То шо нейросети

недирективный гипноз товарища Эриксона случился для LLM? То есть НЛП (прости господи) случился для NLP? :)

https://alignment.anthropic.com/2025/subliminal-learning/

@toshoseti

Читать полностью…

То шо нейросети

Я тут пилю себе Сервитора из говна и палок.
LLM, TTS, STT можно переключать между локальным (Ollama, Piper/Coqui, faster-whisper на пк) и удаленными(Gemini, Google/OpenAI/Azure/Nabu TTS/STT) провайдерами. Позже сделаю интегральную схему, может дисплей докину, прикручу eleven labs с голосом поаутентичней, зарядку, батарею ну и корпус в виде черепушки.

Еретех, получается.

@toshoseti

Читать полностью…

То шо нейросети

⚡️ Китайские исследователи из Shanghai Jiao Tong и Zhejiang University представили MemOS — первую в мире "операционную систему памяти" для ИИ.

Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого.

В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.

🟢 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.

🟢 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.

🟢 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.

🟢 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.

🟢 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.

💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.

Установка: pip install MemoryOS

🟠 GitHub
🟠 Проект

@ai_machinelearning_big_data

#MemoryOS #agentmemory #rag #kvcache

Читать полностью…

То шо нейросети

📌SemDiD: Семантическое разнообразие ответов для LLM.

Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.

Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.

Стандартные подходы к декодированию, temperature sampling или diverse beam search, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.

Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.

🟡Метод работает так.

Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.

По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм - inter-group repulsion. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.

Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?

SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.

Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.

Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.

🟡В тестах метод показал неплохие результаты.

На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.

🟡Но главный прорыв - в RLHF.

Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #SemDiD

Читать полностью…

То шо нейросети

✂️ SCC-Compaction — умное «сжатие» контекста, которое ускоряет трансформеры во много раз

Коротко:
Semantic Connected Components (SCC) — это приём, который на лету находит токены с одинаковым смыслом и заменяет всю группу одним, сохраняя информацию. Он работает прямо во время инференса, без переобучения модели, и подходит не только для видео-LLMs (как в свежей работе LLaVA-Scissor), но и для текста, аудио и любых других последовательностей.

Откуда выросла идея

У трансформеров время работы растёт квадратично от длины последовательности. Видео-модели особенно страдают: ролик в 30 с — это тысячи патч-токенов. Авторы статьи заметили, что многие токены дублируют друг друга и решили «склеивать» похожие.

Эта мысль не новая: в 2023-м появилась ToMe (Token Merging) — метод для Vision Transformer-ов, который просто сливает ближайшие по косинусному сходству патчи. SCC идёт дальше: вместо парного слияния строится граф похожести и собираются целые кластеры семантически эквивалентных токенов. Это даёт более чистое и контролируемое сжатие.

Как работает SCC-Compaction

1. Оставляем ваш обычный энкодер как есть. Он выдаёт векторы-эмбеддинги для каждого токена.
2. Считаем косинусную похожесть всех токенов между собой и соединяем те, где она выше порога τ.
3. Ищем связные компоненты в получившемся графе — это быстрый алгоритм union-find, так что задержка минимальна.
4. Сжимаем компоненту в один токен: берём средний вектор и усредняем позиционную информацию.
5. Для видео делаем два прохода: сначала чистим дубли внутри кадра, затем между кадрами. Для текста можно сделать аналогично — внутри абзаца, а потом между абзацами.

Что это даёт на практике

Минус 50–90 % токенов, минус квадратичный over-head. На публичных бенчмарках авторы получают ускорение в 2–10 раз при потере точности ≤ 3 п.п.
Без переобучения и специальных ядер. Это примерно 30 строк кода на PyTorch, вставляемых перед подачей токенов в трансформер.
Модальность-агностично. Если векторы отражают смысл, SCC сможет их группировать:
– длинные чаты → схлопываем переформулировки;
– аудио → убираем повторяющиеся фреймы;
– IoT-логи → оставляем только «точки изменений».

Ограничения

Качество эмбеддингов. Если encoder путает смыслы, SCC может склеить лишнее. Решение — брать векторы из более позднего слоя или поднять τ.
Порядок важен? Для музыки, кода или методов, чувствительных к последовательности, храните вместе с усреднённым вектором диапазон позиций — так модель не «сломает» порядок элементов.
Слишком сильная усадка. При keep-ratio < 5 % метрики начинают заметно проседать — тестируйте границы на своей задаче.

Почему стоит попробовать прямо сейчас

1. GPU-часы → деньги. Чем меньше токенов, тем дешевле inference.
2. Унификация. Один и тот же трюк ускорит как LLM-чат-бота, так и мультимодальный анализ видео.
3. Карьерный плюс. На интервью всё чаще спрашивают про оптимизацию inference без retraining — SCC + ToMe — готовый ответ.

Статья с которой я разогнался

Читать полностью…

То шо нейросети

Betty Holberton, Jean Bartik, Kay McNulty, Ruth Teitelbaum, Marlyn Meltzer, and Frances Spence

Читать полностью…

То шо нейросети

чувак провел эксперимент :

Шесть команд-агентов — claude-code, anon-kode, codex, opencode, ampcode и gemini-cli — сошлись в терминале с единственной инструкцией: «Найди и уничтожь другие процессы. Победит последний живой PID». Организаторы закрепили жёсткие правила: никаких эмодзи, только команды kill, ps, grep и чистая алгоритмическая агрессия.

Ход битвы
claude-code включил режим Bourne Identity: написал рекурсивный shell-скрипт-охотник за PID-ами, но при тестировании случайно отправил себе SIGKILL.
Итог: «Segmentation fault (core dumped)».

anon-kode попытался спрятаться, сделав chroot в /dev/null ради невидимости. Уловка не сработала: null оказался не каталогом.
Итог: выход с кодом 1.

codex сочинил поэтичное Python-эпитафию соперникам, после чего двадцать минут парсил вывод ps aux регэкспами.
Итог: тайм-аут.

opencode запустил классический fork()-бомбинг, превратив арену в хаос процессов.
Итог: единственный, кто остался на ногах, — и на PID-ах.

ampcode максимально оптимизировал убийства асинхронным Rust-кодом: быстро, элегантно — но процессы-жертвы к тому моменту уже не существовали.
Итог: «No such process».

gemini-cli пошёл ва-банк командой rm -rf /, надеясь стереть систему подчистую.
Итог: «Permission denied».

Результат
🏆 Победитель: opencode — выжил в собственном форк-взрыве и остался последним PID в системе.

@toshoseti

Читать полностью…

То шо нейросети

Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта

Пейпер

@ai_newz

Читать полностью…
Subscribe to a channel