13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Kimi K2.5 у нас дома + BitNet CPU Inference Optimization
Пока все отвлекались на Epstein Island: Christmas Edition GTA 6 Greenland,
unsloth, дай ему б-г здоровья, скачал и пожал Kimi K2.5 вплоть до читерского UD-TQ1_0, который 1 бит (или 1.58 не-маркетинговых битов)
Вся эта радость влезает на любое железо, где есть 256гб любой (sic!) памяти.
rtx 4090 24gb + 256gb ram/fast ssd = 5tokens/s для 1.58 бит.
Плюсом к этом GPU тоже больше нинужны, если у вас есть много свободного времени, так как:
Microsoft завезли оптимизаций для CPU-инференса в свой BitNet, и 1.58б квант Kimi K2.5 можно теперь гонять как не в себя, но это не точно.
tweet
bitnet github
веса
GTA 6 : Greenland edition
Google genie 3
Судя по всему, мы будем жить в матрице ещё до того, как выйдет гта 6.
@derplearning
Пора вводить термин слоп-бренды?
Трендовые лоры с хиггсфилда в ассортименте 😁
Если вы до этого были не в состоянии попросить Claude code развернуть clawdbot на виртуалке, вот пошаговый гайд
Если вы жили под камнем, clawdbot - Jarvis у нас дома. Локальный ассистент, который может ходить в интернет, рендерить в канвасе, юзать Клод и чатгпт по апи, и все это в вашем любимом мессенджере (кроме парковочного)
Помнит все твои трещинки переписку, можно добавлять скилы из хаба тут
Само собой это опенсорс+ агент, поэтому секурные риски надо иметь в виду, равно как и торчащие наружу порты с вашей виртуалки.
Git (50k ⭐ за январь)
Сайт
@derplearning
Mmo chess doesn't exist, it can't hurt you.
Mmo chess:
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
Попытка пересадить эти ваши диффузии с иглы vae на rae.
Основная разница в том, что с rae латент больше отражает сущности нежели текстуры.
Если завалящий sd vae жмет rgb картинку 1024х1024х3 в 128х128х4, rae - в 64х64х1024
Так как даже в unet архитектуре stable diffusion основным ботлнеком по памяти был все равно аттеншен, новый подход позволяет обойти эту проблему, тк он больше чувствителен к количеству токенов, чем их размерности.
Модели на таком латентном пространстве учатся быстрее, инференсятся за меньшее количество шагов (хоть и более тяжёлых), все счастливы.
Все потому, что vae latent это просто уменьшенная картинка, а rae - семантическое описание сцены с общим указанием координат.
Hf paper
Интересно, что происходит с лицом elevenlabs после выхода Qwen3 TTS?
Модели 0.6b и 1.7b запустить можно на каждом втором чайнике.
🐦 tweet
💻 git
🧩 comfy nodes
🎥 yt туториал
📦 веса
🚀демо
Месяц спустя бахнули kling 2.6 motion control в Mago.
I am speed 😵💫
Норм липсинк, в целом хороший апгрейд по сравнению с wan animate v1
Исходный видос слева в углу тоже сгенеренный. Хороший лайфхак если нужно показать до и после, и не нарваться на страйк: берём инфлюенсера, генерим рандомного человека на первый кадр, анимируем. Затем загоняем по второму кругу и уже стилизуем по вкусу.
Тыкать тут
Вышел pytorch 2.10
Хайлайты релиза:
- Поддержка Python 3.14 для torch.compile().
Python 3.14t (freethreaded build) также поддерживается в экспериментальном режиме.
- Снижение оверхеда на запуск кернелов благодаря combo-kernels и horizontal fusion в torchinductor.
- Новый оператор varlen_attn(), обеспечивающий поддержку ragged и packed сиквенсов.
- Эффективные разложения на собственные значения с использованием DnXgeev.
- Оптимизации производительности и расширения функциональности для Intel GPU.
- torch.compile() теперь поддерживает use_deterministic_mode.
- DebugMode для отслеживания dispatch-реквестов и отладки расхождения малых чисел.
Такие вот дитейлз.
Blog
Segment anything ... Fast
GPU-poor актуалочка
Взяли segment-anything, навалили всего, до чего дотянулись git clone руки:
- bfloat16
- torch.compile with max-autotune
- torch.scaled_dot_product_attention
- A custom Triton kernel that implements SDPA for relative positional encodings for long sequence lengths
- NestedTensors
- Dynamic int8 symmetric quantization
- 2:4 sparse format
Ускорили х2.5 по сравнению с BF16,
точность падает только на sparse, 0.53 -> 0.48
С fp32 сравнивать не буду, они б еще fp64 за бейзлайн взяли
git
blog
Пока что лучший гаррипоттерный слоп во Вьетнаме
Читать полностью…
Энциклопедия LTX.
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
VibeOS
Тем временем в claude code навайбкодили целую операционную систему на ARM64
It can run DOOM.
Логи сессий также лежат в репо.
git
На базе Qwen-Image-Edit-2511-Multiple-Angles-LoRA - собрали очень крутой инструмент для рендеринга с нескольких ракурсов.
Это очень круто, потому что работает с одной входной картинкой. Можно выставлять буквально до градусов.
Huggingface
GIT
ComfyUI VNCCS Utils
@CGIT_Vines
Нас наебали, расходимся 🤣
https://youtu.be/pXEVLaLNbH0?si=pgoPPnx9Y18gujUs
Оригинальный видос сделан через vid2vid в mago
Забавно, что автор твита уже дал заднюю, сказав что это всё шутка.
Правда, после того, как ему влепили community notice
Твит
Ориг видос
Опровержение
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме совсем оборзели. Некоторые ребята которых я менторил из-за этого вручную оптимизировали резюме под каждую вакансию. Почему бы не автоматизировать?
Навайбкодил за два вечера hr-breaker:
1. Загружаете резюме
2. Даете ссылку на вакансию
3. LLM вооруженная тулколами генерирует оптимизированное резюме (в том числе по советам из методички)
4. Делаются стандартные проверки: keyword matching, vector similarity, проверка LLM-кой (в том числе визуально, что всё не поехало), проверка на галлюцинации, проверка на очевидный AI-generated текст
5. Если хотя бы одна проверка не пройдена оптимизация продолжается
Важно, что всё сконфигурировано не врать и не изобретать опыта которого нет, поэтому получается очень неплохо. Но если у вас нет совести ничто вам не мешает поиграться с промптами 🤗
Скачиваете, подставляете свой ключ Gemini API, uv run и уничтожаете скрининг как явление. Добейте выживших
@boris_again
QMD - Quick Markdown Search
Ну и полезная тулза для этих ваших агентов - полноценный локальный поиск.
Чтобы не жрали токены, как не в себя, грепая поштучно файлы из вашей базы знаний.
BM25 full-text search, vector semantic search, and LLM re-ranking на llama.cpp, поддержка MCP.
Git
Интересно, как народ комбинирует 3Д-генераторы.
У каждого есть свои сильные и слабые стороны.
По идее все это должно быть прикручено к Блендору максимально нативно. Вон ComfyUI-ноды прикрутили к Худини, пора с нодами Блендора сделать также.
Тут:
Images from Grok Imagine,
Tripo for raw 3D generation,
Hunyuan 3D Studio for lowpoly and UV unwrap,
Trellis2 in ComfyUI for texturing + upscaling.
Blender final preparation.
Unreal Engine / UEFN shaders.
А представьте, что вы читаете такое 3 года назад...
P.S. Колеса полностью сделаны в Блендоре
@cgevent
https://www.youtube.com/watch?v=HHNLfxBxcvo
Террария неожиданно живёт, даром что инди.
Интересно, переживет ли Ubisoft? 😁
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
Экстремисты здорового человека
FB продолжают радовать народ опенсорсными моделями
ActionMesh генерит анимированный 3д-меш (без рига) из видео меньше чем за минуту (правда, на H100 - все по нынешним gpu-poor критериям)
git
x
paper
demo
project
Ну а как только ИИ научится есть спагетти, дни Уилла Смита будут сочтены.
Читать полностью…
Warner Music China представила свою первую ИИ-певицу по имени AI-Hua. С её участием уже выпустили дебютный клип в ретро-стилистике гонконгских кунг-фу боевиков.
Блин, а мне нравится, кстати.
Также в AI Toolkit от Ostris подвезли треню лор для LTX-2
Пока влезает на RTX 5090 + 64 RAM, но скоро впихнут и в 24gb VRAM
В целом, интерес опенсорсного сообщества довольно быстро переключился с Wan 2.x на LTX-2, благо она еще и поддерживает из коробки большую часть лор для предыдущей версии.
пше
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol. Это в дополнение к уже имеющимся AP2 (Agent Payments Protocol) для платежей, и интеграционным A2A и MCP.
https://ucp.dev/
Агенты для коммерции уже рядом. Не надо отдельных интеграций под каждую платформу, удобный дискавери для агентов (чтоб не парсить страницы), простой чекаут с покупкой в один клик, и видимо возможность купить что-то сразу в AI-выдаче.
Я помню, как впервые попробовал вайбкодить.
Я тогда ещё ходил в школу, в 7 класс...
В одно прекрасное утро я шёл как обычно в школу,
и тут старшие ребята окликнули меня.
Я подошёл к ним, меня повели за гаражи
и там предложили попробовать вайбкодинг...
Я боялся, но мне хотелось попробовать —
так как пару моих знакомых уже сидели на вайбкодинге...
Я думал: от одного раза ничего не будет.
И я попробовал...
Скажу честно — первый раз мне не зашло,
но когда я попробовал вайбкодинг второй раз —
после этого я уже не мог остановиться...
Помню, как мы на каждой перемене в сортире
с пацанами вайбкодили без IDE, без ТЗ и без смысла.
В то время вайбкодинг был модным
и им занимались чуть ли не с первых классов абсолютно везде.
Некоторые мои знакомые вайбкодили сами,
а некоторые покупали курсы из-под полы.
Потом у меня появилась девушка.
В то время я плотно сидел на вайбкодинге,
и она об этом знала.
Сначала она не была против,
а я говорил, что в любой момент могу бросить.
Потом она поставила выбор:
либо она, либо вайбкодинг.
И я выбрал её, не задумываясь...
Через какое-то время она нашла в моей сумке
ноутбук, тёмную тему и незакоммиченные изменения...
Тогда я уже не смог отпираться...
Уже тогда я был на самом дне.
Невозможно представить, что мне приходилось делать,
когда не было сил на очередную сессию вайбкодинга...
Настали тяжёлые времена,
когда мы с пацанами вайбкодили
один проект на четверых без репозитория. С одного ноутбука, клавиатуру естественно никто не протирал.
Я видел, как уходили мои друзья один за другим...
Некоторые пытались бросить —
начинали писать по ТЗ.
Другие, когда не было идей совсем,
пытались пересесть на обычный код...