toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

Почему так? См. Комменты

@toshoseti

Читать полностью…

То шо нейросети

Sigoid function. От создателя Гуссианы

Читать полностью…

То шо нейросети

FastJAM: a Fast Joint Alignment Model for Images

Joint Alignment (JA) изображений направлен на приведение набора изображений к единой системе координат так, чтобы семантически похожие области располагались в соответствующих местах.
Большинство существующих подходов требует длительного обучения, моделей большой емкости и тщательной настройки гиперпараметров. Авторы представляют FastJAM — быстрый метод на основе графов, который значительно снижает вычислительную сложность задачи совместного выравнивания. FastJAM использует pairwise matches, полученные с помощью стандартного image matcher, и быстрый непараметрический clustering для построения графа связей между keypoints в пределах и между изображениями. Graph Neural Network распространяет и агрегирует эти соответствия, эффективно предсказывая параметры homography для каждого изображения с использованием image-level pooling.
Применяется inverse-compositional loss, что устраняет необходимость в регуляризации предсказанных трансформаций (а значит и в подборе гиперпараметров для регуляризаторов), позволяя выполнять JA быстро и устойчиво.
Эксперименты на нескольких benchmark’ах показывают, что FastJAM обеспечивает более высокое качество выравнивания по сравнению с современными методами, при этом снижая время вычислений от часов или минут до нескольких секунд.

Папир: https://arxiv.org/abs/2510.22842
Демо\Код: https://bgu-cs-vil.github.io/FastJAM/

@toshoseti

Читать полностью…

То шо нейросети

⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей

Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте.

Что внутри:
• Поддержка 19+ архитектур, включая:
• Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов
• Qwen2.5-Omni - единая модель для текста, изображений и аудио
• WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V)
• dLLM - диффузионные языковые модели
• LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие

📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах)

🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine

@ai_machinelearning_big_data

#llm #opensource

Читать полностью…

То шо нейросети

Не могу даже представить, кто в здравом уме отказался бы от генеративных игр – это же как если бы «обеденный сон» был движком для игры

Записаться в бету можно тут, но я не очень верю, что этот проект состоится - потому что автор, чел который делал Reflection 70b, вот тут про нее была драма

Читать полностью…

То шо нейросети

Более полутора тысяч бесплатных уроков от Google по разным направлениям AI и не только

https://www.skills.google/

@toshoseti

Читать полностью…

То шо нейросети

Компания Марка потратила 400k+ GPU-часов, чтобы понять, как масштабируется Reinforcement Learning для LLM.

* Вместо привычных power laws - sigmoid-кривые: они лучше описывают рост pass rate с увеличением compute. Оказалось, что разные RL-рецепты достигают разных потолков: методы, которые кажутся сильными на малом масштабе, теряют позиции при масштабировании.

* ScaleRL объединяет:
PipelineRL (≈4× throughput),
CISPO loss (стабильнее GRPO/DAPO),
FP32 на уровне logits,
• и ряд инженерных фиксов.

* Большинство популярных трюков (advantage normalization, curriculum learning и т.п.) влияют лишь на скорость выхода на потолок, но не на сам потолок качества — его задают loss и precision.

* ScaleRL проверили на 17B MoE, 32k контексте, больших батчах и мультитаске (math + code). Модель точно предсказывает результат уже с 25% вычислений (натренировались предсказывать сигмоиду гыгы)


Статья: https://arxiv.org/abs/2510.13786

@toshoseti

Читать полностью…

То шо нейросети

GoLU — новая функция активации для нейросетей
Представлена Gompertz Linear Unit (GoLU) — инновационная self-gated функция активации, принятая на NeurIPS 2025.
Главное отличие: использует асимметричную функцию Гомперца вместо симметричного гейтинга (как в GELU/Swish), что лучше улавливает динамику реальных данных.
Преимущества:
• Снижение дисперсии в латентном пространстве
• Гладкий ландшафт функции потерь
• Быстрая сходимость и выше точность
GoLU превзошла GELU, Swish и Mish в задачах CV, NLP и диффузионных моделей. Доступно оптимизированное CUDA-ядро для простой интеграции

📄 https://arxiv.org/pdf/2502.03654
💻 https://github.com/automl/GoLU

@toshoseti

Читать полностью…

То шо нейросети

Я тут узнал, что у автора моего любимого мема «Идущий к Реке» можно купить видео-рекламу, что я и сделал; видео-рекламу этого канала я вам показывать не буду, вы и так на него подписаны, но Серж (так зовут героя мема) еще сделал отдельное видео, аж на 6 минут, с благодарностями и пожеланиями мне – и я, как всегда, впечатлен его языковой моделью, буду переслушивать для повышения самооценки, спасибо

Я это видео перегнал в текст и сделал из его стиля «генератор благодарностей» в виде GPT, просто вводите свое имя и читаете про то какой вы замечательный, и «Пусть дорога твоя будет озарена внутренним пламенем, пусть рядом всегда будут те, кто поддерживает, кто видит, кто слышит. Пусть каждый твой день будет праздником узнавания самого себя» и так далее

Генерируем текст и нажимаем «прослушать» в ChatGPT, зачем – не спрашивайте, так не принято ☕️

Читать полностью…

То шо нейросети

👀 Про аудио кодеки в Deep Learning School

Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)

На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.

Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff

Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.

На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.

Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0

Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ

#audio #perfomances

Читать полностью…

То шо нейросети

Новая LFM2 MoE-модель: 8.3B параметров, из которых активно только 1.5B на токен.

Это первая LFM2 модель с Mixture of Experts архитектурой. Качество сопоставимо с dense-моделями 3–4B, но она работает быстрее, чем Qwen3-1.7B.

Модель оптимизирована для запуска на телефонах и ноутбуках — совместима с llama.cpp и vLLM. Обучена на 12T токенов, что обеспечивает сильные результаты в math, code и instruction-following.

Архитектура: 24 блока (10 gated short conv + 6 GQA), 32 эксперта, при этом на каждый токен активируется top-4.

На Galaxy S24 Ultra и AMD HX370 модель показывает более высокую скорость, чем Qwen3-1.7B. На 16 бенчмарках она превосходит LFM2-2.6B и модели аналогичного размера, особенно в math, code и creative writing.

Использована комбинированная техника preference optimization: length-normalized DPO + APO.

🤗 Model: https://huggingface.co/LiquidAI/LFM2-8B-A1B
🤗 GGUF: https://huggingface.co/LiquidAI/LFM2-8B-A1B-GGUF
📝 Blog post: https://www.liquid.ai/blog/lfm2-8b-a1b-an-efficient-on-device-mixture-of-experts

@toshoseti

Читать полностью…

То шо нейросети

ViT имеют тендецию находить области, чей сигнал избыточен (может быть выведен за счет окружающих) и передавать полезную информацию через аттеншен в этих местах. Этакая контрабанда внутри трансформеров.
Чтобы облегчить работу трансформерам и закопать уже стюардессу нормализовать attention masks, вводят дополнительные регистры для подобного хранения на усмотрение модели.

Статья

@toshoseti

Читать полностью…

То шо нейросети

https://www.arxiv.org/abs/2509.19162

Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .

Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.

А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c

Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons

Читать полностью…

То шо нейросети

https://whytorch.org/

Инструмент для наглядной демонстрации некоторых тривиальных и нетривиальных функций операций с тензорами в PyTorch.

@toshoseti

Читать полностью…

То шо нейросети

Есть наработки по AI системе озвучки (foley, no speech) для AI Generated NSFW videos или любых прочих NSFW видео без звука, с возможностью адаптации под домен. Если есть идеи как монетизировать или потенциальные клиенты, напишите, пожалуйста.

Читать полностью…

То шо нейросети

Скоро выходит игра, над которой я недавно работал :)

Читать полностью…

То шо нейросети

Сижу себе спокойно, пишу ревью на препринты, поданные на ICLR 2026... как вдруг один из них внезапно приоткрывает предо мною настоящую бездну в виде блок-схемы на рис. 1 (в статье это тоже Fig.1).

Как вам такой пайплайн, друзья? Рекомендую вглядеться в картинку повнимательнее, особенно в правую её часть. Через какое-то время вглядывания вам начнет казаться, что картинка тоже в вас вглядывается - механическими глазами диффузионного генератора. #генерация

Читать полностью…

То шо нейросети

Вышла вторая версия интерактивного world gen - Odyssey 2.

https://experience.odyssey.ml/

@toshoseti

Читать полностью…

То шо нейросети

Снова про спайковые нейросети и ими вдохновленное

https://arxiv.org/abs/2509.05276

Завтра распишу чуть подробнее.

@toshoseti

Читать полностью…

То шо нейросети

Пока что выглядит как сны под температурой, но дайте время.

Читать полностью…

То шо нейросети

Интерактивный tutorial по аудио кодекам от Kyutai labs 😎

https://kyutai.org/next/codec-explainer

Читать полностью…

То шо нейросети

А вот и вышел аккомпанирующий блог-пост к моей тетрадке-туториалу по Rectified Flow Matching

https://playerunknownproductions.net/news/rectified-flow-matching

@toshoseti

Читать полностью…

То шо нейросети

http://arxiv.org/abs/2510.12403

Hf книжка по роботам sim-real rl, vla, diffusion policies

Читать полностью…

То шо нейросети

Спасибо за наводку /channel/den4ikresearch

Читать полностью…

То шо нейросети

Samsung Tiny Recursive Model (TRM) от Alexia Jolicoeur-Martineau — модель примерно в 10 000 раз меньше, чем типичные LLM, но при этом умнее.

Вместо простого предсказания текста TRM рассуждает рекурсивно: формирует ответ, создает скрытый scratchpad для логики, критикует себя, улучшает рассуждения до 16 раз и выдает сильный финальный результат.

На ARC-AGI 1/2 она превзошла DeepSeek и Gemini 2.5 Pro, показывая, что интеллект определяется архитектурой и циклами рассуждения, а не размером.

TRM делает ИИ эффективнее, дешевле и умнее, подтверждая идеи neuro-symbolic AI.

🔗 Blog
💻 Code
📄 Paper

@toshoseti

Читать полностью…

То шо нейросети

Qwen3-Next 80B-A3B

C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом

- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)


blog

Читать полностью…

То шо нейросети

[Гитхаб репа]

Коллеги из страны, подарившей ранее миру шедевры Моцарта и Штрауса, а еще и GPTQ, выкатили на неделе либу llm.q для quantization-aware training LLMок, написанную на чистом C/C++.

Данный проект по существу является адаптацией llm.c от Карпатого под обучение квантизованных моделей.

Чекпоинты с обучения сохраняются в .safetensors формат, т.е совместимый с 🤗 экосистемой.

В либе реализован небходимый базовый функционал для обучения LLM:
📌 Zero (1-3)
📌 Градиентный чекпоинтинг
📌 Оффлоадинг
📌 Разные опции для mixed-precision

На текущий момент, поддерживается обучение в half precision, INT8, FP8. Было бы прикольно в будущем увидеть реализацию обучения для FP4 форматов, поддерживаемых Blackwell, со всеми прибамбасами для стабилизации обучения.

Сравнения по скорости обучения с популярными фреймворками (accelerate / deepspeed) я не увидел. Представлены только абсолютные числа по времени обучения для модели заданной архитектуры. Удается достичь примерно 40-60% SOL (speed-of-light, максимально возможной производительности на заданном железе). На маленьких моделях fp8 почти не дает ускорения обучения, но с ростом размера нейронки - профит становится заметнее.

Интересно, как дальше будет развиваться проект.

Читать полностью…

То шо нейросети

От /channel/nadlskom узнал про наших слоняр, поддержим!

Читать полностью…

То шо нейросети

Ring, Ulysses и Unified Attention теперь поддерживаются в HF Diffusers!
Иными словами завезли context parallelism , ускоряющий работу на нескольких GPU.

https://github.com/huggingface/diffusers/pull/11941

@toshoseti

Читать полностью…

То шо нейросети

🐈FLM-Audio: новая англо-китайская full-duplex модель, чем она лучше Moshi ?

Тык, сегодня снова про аудио тех 🔔
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.

Немного про full-duplex

Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.

Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue. 😮 Для каждого аудиофрейма (12.5 Hz) модель генерит свои аудио и текстовые токены монолога (когда молчит, то все равно генерит пустые токены), затем эти потоки объединяются и подаются обратно на вход LLM.

Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.

😭 Проблема Moshi: 65% padding'а

Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается: Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>

Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель 🐈 — может выдавать странные фразы, неуместно перебивать. Плюс нужны точные временные метки на уровне слов для всего корпуса. Это сложно масштабируется.

💭FLM-Audio: natural monologues

В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?

Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется <wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.

Что и как тренировали?

Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).

Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.

🗯Интересно: авторы подмешивают речь модели в listening канал с вероятностью 0.3, чтобы она научилась игнорировать собственный голос.

Результаты лучше Moshi, но есть вопросики

ASR (LibriSpeech-clean): 3.2% WER против 5.7% у Moshi — на 44% лучше. В spoken QA авторы заявляют 56.3% vs 43.7 у Moshi (хотя в своей статье Moshi показывала 62.3%).

Human eval: FLM выше Qwen-2.5-Omni по naturalness (8.2 vs 7.9), responsiveness (8.8 vs 8.1), robustness (8.0 vs 7.7).

Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.

Ну и выводы такие..

Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.

🥹 Как считаете, стоит ли full-duplex такой архитектурной сложности? И как вам Moshi, если удалось потестить?

Читать полностью…
Subscribe to a channel