980
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Полная серия с кошерным переводом от Телемастера в ВК: https://vk.com/video-182895006_456239532
Читать полностью…
Хорошенький хендбук по GEMM, в котором автор проходится от наивной реализации, добавляя поэтапно оптимизации: коалесцированный доступ, использование shared memory, тильинг, вычисления в регистрах, тензорные ядра. Все это в финале собирается в CUTLASS от NVIDIA и получается Learn CUTLASS the hard way!
Читать полностью…
Нравится. Экономно.
https://github.com/wilpel/caveman-compression
@toshoseti
Liquid AI предлагает за их счет зафайнтюнить LFM на ваших данных и проверить как будет выглядеть качество/производительность, с возможностью скачать веса.
Доступно в как минимум до конца этих выходных.
https://workbench.liquid.ai
Как оно работает: https://www.loom.com/share/865b370031ac4a3eb28e7b35685e2f1d
Fine tuning VLM версии (мастер-класс):
https://www.youtube.com/watch?v=00IK9apncCg
@toshoseti
🤖 Google представила Nested Learning — новую парадигму ИИ, которая учится как человек и не забывает прошлые знания
Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.
Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.
Это позволяет модели:
- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает
Что это даёт?
1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.
2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.
3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.
📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning
#google
@data_analysis_ml
FastJAM: a Fast Joint Alignment Model for Images
Joint Alignment (JA) изображений направлен на приведение набора изображений к единой системе координат так, чтобы семантически похожие области располагались в соответствующих местах.
Большинство существующих подходов требует длительного обучения, моделей большой емкости и тщательной настройки гиперпараметров. Авторы представляют FastJAM — быстрый метод на основе графов, который значительно снижает вычислительную сложность задачи совместного выравнивания. FastJAM использует pairwise matches, полученные с помощью стандартного image matcher, и быстрый непараметрический clustering для построения графа связей между keypoints в пределах и между изображениями. Graph Neural Network распространяет и агрегирует эти соответствия, эффективно предсказывая параметры homography для каждого изображения с использованием image-level pooling.
Применяется inverse-compositional loss, что устраняет необходимость в регуляризации предсказанных трансформаций (а значит и в подборе гиперпараметров для регуляризаторов), позволяя выполнять JA быстро и устойчиво.
Эксперименты на нескольких benchmark’ах показывают, что FastJAM обеспечивает более высокое качество выравнивания по сравнению с современными методами, при этом снижая время вычислений от часов или минут до нескольких секунд.
Папир: https://arxiv.org/abs/2510.22842
Демо\Код: https://bgu-cs-vil.github.io/FastJAM/
@toshoseti
⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей
Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте.
Что внутри:
• Поддержка 19+ архитектур, включая:
• Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов
• Qwen2.5-Omni - единая модель для текста, изображений и аудио
• WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V)
• dLLM - диффузионные языковые модели
• LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие
📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах)
🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine
@ai_machinelearning_big_data
#llm #opensource
Не могу даже представить, кто в здравом уме отказался бы от генеративных игр – это же как если бы «обеденный сон» был движком для игры
Записаться в бету можно тут, но я не очень верю, что этот проект состоится - потому что автор, чел который делал Reflection 70b, вот тут про нее была драма
Более полутора тысяч бесплатных уроков от Google по разным направлениям AI и не только
https://www.skills.google/
@toshoseti
Компания Марка потратила 400k+ GPU-часов, чтобы понять, как масштабируется Reinforcement Learning для LLM.
* Вместо привычных power laws - sigmoid-кривые: они лучше описывают рост pass rate с увеличением compute. Оказалось, что разные RL-рецепты достигают разных потолков: методы, которые кажутся сильными на малом масштабе, теряют позиции при масштабировании.
* ScaleRL объединяет:
• PipelineRL (≈4× throughput),
• CISPO loss (стабильнее GRPO/DAPO),
• FP32 на уровне logits,
• и ряд инженерных фиксов.
* Большинство популярных трюков (advantage normalization, curriculum learning и т.п.) влияют лишь на скорость выхода на потолок, но не на сам потолок качества — его задают loss и precision.
* ScaleRL проверили на 17B MoE, 32k контексте, больших батчах и мультитаске (math + code). Модель точно предсказывает результат уже с 25% вычислений (натренировались предсказывать сигмоиду гыгы)
Статья: https://arxiv.org/abs/2510.13786
@toshoseti
GoLU — новая функция активации для нейросетей
Представлена Gompertz Linear Unit (GoLU) — инновационная self-gated функция активации, принятая на NeurIPS 2025.
Главное отличие: использует асимметричную функцию Гомперца вместо симметричного гейтинга (как в GELU/Swish), что лучше улавливает динамику реальных данных.
Преимущества:
• Снижение дисперсии в латентном пространстве
• Гладкий ландшафт функции потерь
• Быстрая сходимость и выше точность
GoLU превзошла GELU, Swish и Mish в задачах CV, NLP и диффузионных моделей. Доступно оптимизированное CUDA-ядро для простой интеграции
📄 https://arxiv.org/pdf/2502.03654
💻 https://github.com/automl/GoLU
@toshoseti
Я тут узнал, что у автора моего любимого мема «Идущий к Реке» можно купить видео-рекламу, что я и сделал; видео-рекламу этого канала я вам показывать не буду, вы и так на него подписаны, но Серж (так зовут героя мема) еще сделал отдельное видео, аж на 6 минут, с благодарностями и пожеланиями мне – и я, как всегда, впечатлен его языковой моделью, буду переслушивать для повышения самооценки, спасибо
Я это видео перегнал в текст и сделал из его стиля «генератор благодарностей» в виде GPT, просто вводите свое имя и читаете про то какой вы замечательный, и «Пусть дорога твоя будет озарена внутренним пламенем, пусть рядом всегда будут те, кто поддерживает, кто видит, кто слышит. Пусть каждый твой день будет праздником узнавания самого себя» и так далее
Генерируем текст и нажимаем «прослушать» в ChatGPT, зачем – не спрашивайте, так не принято ☕️
Для чего еще нужны нейросети, как не для возрождения классики?
Единственная серия, для которой не было нормального перевода и озвучки.
The Long Dark 2: вышел хардкорный некстген-выживач от создателя PUBG — Prologue: Go Wayback
🔵Ультрареализм — на старте есть лишь компас, а ориентироваться придется по звездам, солнцу и окружению
🔵Процедурная генерация всего мира после смерти — все вылазки будут уникальными
🔵Суровая погода — например, молнии подожгут лес, или игрока заморозит насмерть
🔵Основная цель — добраться до метеостанции
🔵Редактор уровней позволит игрокам делиться своими мирами
🔵На базе игры создается целый онлайн-проект
MOV инструкция в Assembly - turing complete, то есть любую программу можно переписать используя одну лишь инструкцию MOV.
Программа будет на пару порядков больше и медленнее, но будет работать.
https://github.com/xoreaxeaxeax/movfuscator
@toshoseti
https://arxiv.org/abs/2511.08892
Tldr:
- история на 20 фреймов, предсказывают действие
- sft на прошлых трейсах
- без rl(не нужен тут)
Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В отличие от первой версии, которая могла выполнять лишь базовые действия, SIMA 2 может рассуждать о высокоуровневых целях и достигать их, болтать с игроком и даже играть в игры, которые никогда не видел — типа ASKA или MineDojo. Ну и конечно может ориентироваться в энвайроментах которые создаёт Genie 3. Это стало возможно во многом из-за интеграции Gemini с более лайтовой агентной моделью, которая и занимается непосредственным управлением (Система 1 и Система 2 в действии).
Главная новая возможность — самообучение: SIMA 2 сама набивает опыт, оценивает его через Gemini и улучшается без помощи человека. По бенчмаркам уже довольно близко подобралась к человеческой производительности. Конечно, есть косяки — с длинными многоходовками пока туго, длины контекста не хватает, да и с точным управлением мышкой проблемы. В любом случае это серьезный шаг к универсальным ИИ-агентам, которых можно будет засунуть куда угодно. Техрепорта пока нет, но обещают
@ai_newz
В Windsurf завезут подобие генерации UML.
@toshoseti
Скоро выходит игра, над которой я недавно работал :)
Читать полностью…
Сижу себе спокойно, пишу ревью на препринты, поданные на ICLR 2026... как вдруг один из них внезапно приоткрывает предо мною настоящую бездну в виде блок-схемы на рис. 1 (в статье это тоже Fig.1).
Как вам такой пайплайн, друзья? Рекомендую вглядеться в картинку повнимательнее, особенно в правую её часть. Через какое-то время вглядывания вам начнет казаться, что картинка тоже в вас вглядывается - механическими глазами диффузионного генератора. #генерация
Вышла вторая версия интерактивного world gen - Odyssey 2.
https://experience.odyssey.ml/
@toshoseti
Снова про спайковые нейросети и ими вдохновленное
https://arxiv.org/abs/2509.05276
Завтра распишу чуть подробнее.
@toshoseti
Пока что выглядит как сны под температурой, но дайте время.
Читать полностью…
Интерактивный tutorial по аудио кодекам от Kyutai labs 😎
https://kyutai.org/next/codec-explainer
А вот и вышел аккомпанирующий блог-пост к моей тетрадке-туториалу по Rectified Flow Matching
https://playerunknownproductions.net/news/rectified-flow-matching
@toshoseti
http://arxiv.org/abs/2510.12403
Hf книжка по роботам sim-real rl, vla, diffusion policies