13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Epstein files у нас дома
Теперь можно попробовать себя в роли МинЮста США и убирать имена знаменитостей из секретных документов.
Три в ряд курильщика би лайк.
[REDACTED]
Уже навайбклодили скилл на fal.ai интеграцию для openclaw (в девичестве - clawdbot)
С расширяемым списком моделей (кидаете линк на апи док с fal.ai и бот добавит интеграцию)
Со списком запросов и поллингом, который переживет рестарт сессии.
Уже есть банана, флак и клинго3.
fal-ai-skill
clawhub
@derplearning
Qwen3-Coder-Next
Китайцы в очередной раз упоролись и выкатили в опенсорс Qwen3-Coder-Next - модель, заточенную под агентский кодинг.
3b активных параметров из 80b , по бенчам делает всех подряд, и находится на уровне той же Kimi 2.5, и даже закрытых моделей.
Контекст 256к токенов, поддержка всех популярных агентских оберток вроде Claude Code, Qwen Code, Qoder, Kilo, Trae, Cline, etc.
Ждем ответочек от openai & anthropic? :D
Ну а насколько train on test set - покажет время.
github
tech report
gguf
blog
@derplearning
Встречаем SUNO у нас дома:
ACE-Step 1.5
Pushing the Boundaries of Open-Source Music Generation
Генерит музыку, каверы, минусы, поддерживает 50 языков.
Лицензия MIT.
Божатся, что данные лицензированные, роялти-фри, синтетика.
Генерит песню за 10 секунд на 3090, и за 2 на А100, но должна завестись и на 4гб vram.
Как-то даже слишком хорошо, чтобы быть правдой.
веса
твит
пейпер
демо
дискорд
@derplearning
Как перейти из телеграм админов в синьор мл инжиры меты? легко
https://huggingface.co/spaces/AlexWortega/hr-breaker
Два клика и в дамки
Нас наебали, расходимся 🤣
https://youtu.be/pXEVLaLNbH0?si=pgoPPnx9Y18gujUs
Оригинальный видос сделан через vid2vid в mago
Забавно, что автор твита уже дал заднюю, сказав что это всё шутка.
Правда, после того, как ему влепили community notice
Твит
Ориг видос
Опровержение
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме совсем оборзели. Некоторые ребята которых я менторил из-за этого вручную оптимизировали резюме под каждую вакансию. Почему бы не автоматизировать?
Навайбкодил за два вечера hr-breaker:
1. Загружаете резюме
2. Даете ссылку на вакансию
3. LLM вооруженная тулколами генерирует оптимизированное резюме (в том числе по советам из методички)
4. Делаются стандартные проверки: keyword matching, vector similarity, проверка LLM-кой (в том числе визуально, что всё не поехало), проверка на галлюцинации, проверка на очевидный AI-generated текст
5. Если хотя бы одна проверка не пройдена оптимизация продолжается
Важно, что всё сконфигурировано не врать и не изобретать опыта которого нет, поэтому получается очень неплохо. Но если у вас нет совести ничто вам не мешает поиграться с промптами 🤗
Скачиваете, подставляете свой ключ Gemini API, uv run и уничтожаете скрининг как явление. Добейте выживших
@boris_again
QMD - Quick Markdown Search
Ну и полезная тулза для этих ваших агентов - полноценный локальный поиск.
Чтобы не жрали токены, как не в себя, грепая поштучно файлы из вашей базы знаний.
BM25 full-text search, vector semantic search, and LLM re-ranking на llama.cpp, поддержка MCP.
Git
Интересно, как народ комбинирует 3Д-генераторы.
У каждого есть свои сильные и слабые стороны.
По идее все это должно быть прикручено к Блендору максимально нативно. Вон ComfyUI-ноды прикрутили к Худини, пора с нодами Блендора сделать также.
Тут:
Images from Grok Imagine,
Tripo for raw 3D generation,
Hunyuan 3D Studio for lowpoly and UV unwrap,
Trellis2 in ComfyUI for texturing + upscaling.
Blender final preparation.
Unreal Engine / UEFN shaders.
А представьте, что вы читаете такое 3 года назад...
P.S. Колеса полностью сделаны в Блендоре
@cgevent
https://www.youtube.com/watch?v=HHNLfxBxcvo
Террария неожиданно живёт, даром что инди.
Интересно, переживет ли Ubisoft? 😁
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
Экстремисты здорового человека
FB продолжают радовать народ опенсорсными моделями
ActionMesh генерит анимированный 3д-меш (без рига) из видео меньше чем за минуту (правда, на H100 - все по нынешним gpu-poor критериям)
git
x
paper
demo
project
Ну а как только ИИ научится есть спагетти, дни Уилла Смита будут сочтены.
Читать полностью…
Чел заспидранил MSFS у нас дома за час в Opus 4.6 / GPT 5.3, набрал 70к игроков за сутки и частично прикрыл лавочку, так как уже получил свой первый робкий счет от Google Cloud.
Когда сингулярность пришла откуда не ждали.
тред
fly.alistairmcleay.com
Rentahuman.ai - новая платформа для того, что бы OpenClaw могли нанимать себе людей 🦞
Удобно, да? Сажать то будут исполнителя
Еще в суно можно сделать так: поете песню, кидаете слова.
Если бы я не кинул свой аудио семпл (да, я спел всю песню, и все акценты мои), то никаких акцентов бы не было, и ударение в слове ссутулился падало бы на И :D
Нейросети официально убили кальянный рэп.
Как вам такое прочтение Jonh Carpenter's The Thing?
Prompt:
Dark cinematic neurofunk at 174 BPM, female Slavic vocals. Long evolving intro with bowed cello drones, Spanish guitar tremolo, and distant glitch textures over a mutating sub. Gradual tension build as rhythmic motifs and FX swirls thicken, then a sharp rise into skittering drums and panoramic cyberpunk sound design. Huge melodic bass drop in the chorus, bass carrying the main hook while vocals slice through. Second half leans into call‑and‑response between melodic bass and chopped vocal phrases, ending in a simmering, restless half‑time outro with sparse drums and echoing drones., dramatic, cello, dynamic, rhythmic, deep, minimal, frantic, neurofunk, glitch, very fast drums
текст в комментах если надо
Maybe the last thing we have in common
Is watching the same sun.
Kimi K2.5 у нас дома + BitNet CPU Inference Optimization
Пока все отвлекались на Epstein Island: Christmas Edition GTA 6 Greenland,
unsloth, дай ему б-г здоровья, скачал и пожал Kimi K2.5 вплоть до читерского UD-TQ1_0, который 1 бит (или 1.58 не-маркетинговых битов)
Вся эта радость влезает на любое железо, где есть 256гб любой (sic!) памяти.
rtx 4090 24gb + 256gb ram/fast ssd = 5tokens/s для 1.58 бит.
Плюсом к этом GPU тоже больше нинужны, если у вас есть много свободного времени, так как:
Microsoft завезли оптимизаций для CPU-инференса в свой BitNet, и 1.58б квант Kimi K2.5 можно теперь гонять как не в себя, но это не точно.
tweet
bitnet github
веса
GTA 6 : Greenland edition
Google genie 3
Судя по всему, мы будем жить в матрице ещё до того, как выйдет гта 6.
@derplearning
Пора вводить термин слоп-бренды?
Трендовые лоры с хиггсфилда в ассортименте 😁
Если вы до этого были не в состоянии попросить Claude code развернуть clawdbot на виртуалке, вот пошаговый гайд
Если вы жили под камнем, clawdbot - Jarvis у нас дома. Локальный ассистент, который может ходить в интернет, рендерить в канвасе, юзать Клод и чатгпт по апи, и все это в вашем любимом мессенджере (кроме парковочного)
Помнит все твои трещинки переписку, можно добавлять скилы из хаба тут
Само собой это опенсорс+ агент, поэтому секурные риски надо иметь в виду, равно как и торчащие наружу порты с вашей виртуалки.
Git (50k ⭐ за январь)
Сайт
@derplearning
Mmo chess doesn't exist, it can't hurt you.
Mmo chess:
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
Попытка пересадить эти ваши диффузии с иглы vae на rae.
Основная разница в том, что с rae латент больше отражает сущности нежели текстуры.
Если завалящий sd vae жмет rgb картинку 1024х1024х3 в 128х128х4, rae - в 64х64х1024
Так как даже в unet архитектуре stable diffusion основным ботлнеком по памяти был все равно аттеншен, новый подход позволяет обойти эту проблему, тк он больше чувствителен к количеству токенов, чем их размерности.
Модели на таком латентном пространстве учатся быстрее, инференсятся за меньшее количество шагов (хоть и более тяжёлых), все счастливы.
Все потому, что vae latent это просто уменьшенная картинка, а rae - семантическое описание сцены с общим указанием координат.
Hf paper
Интересно, что происходит с лицом elevenlabs после выхода Qwen3 TTS?
Модели 0.6b и 1.7b запустить можно на каждом втором чайнике.
🐦 tweet
💻 git
🧩 comfy nodes
🎥 yt туториал
📦 веса
🚀демо
Месяц спустя бахнули kling 2.6 motion control в Mago.
I am speed 😵💫
Норм липсинк, в целом хороший апгрейд по сравнению с wan animate v1
Исходный видос слева в углу тоже сгенеренный. Хороший лайфхак если нужно показать до и после, и не нарваться на страйк: берём инфлюенсера, генерим рандомного человека на первый кадр, анимируем. Затем загоняем по второму кругу и уже стилизуем по вкусу.
Тыкать тут
Вышел pytorch 2.10
Хайлайты релиза:
- Поддержка Python 3.14 для torch.compile().
Python 3.14t (freethreaded build) также поддерживается в экспериментальном режиме.
- Снижение оверхеда на запуск кернелов благодаря combo-kernels и horizontal fusion в torchinductor.
- Новый оператор varlen_attn(), обеспечивающий поддержку ragged и packed сиквенсов.
- Эффективные разложения на собственные значения с использованием DnXgeev.
- Оптимизации производительности и расширения функциональности для Intel GPU.
- torch.compile() теперь поддерживает use_deterministic_mode.
- DebugMode для отслеживания dispatch-реквестов и отладки расхождения малых чисел.
Такие вот дитейлз.
Blog
Segment anything ... Fast
GPU-poor актуалочка
Взяли segment-anything, навалили всего, до чего дотянулись git clone руки:
- bfloat16
- torch.compile with max-autotune
- torch.scaled_dot_product_attention
- A custom Triton kernel that implements SDPA for relative positional encodings for long sequence lengths
- NestedTensors
- Dynamic int8 symmetric quantization
- 2:4 sparse format
Ускорили х2.5 по сравнению с BF16,
точность падает только на sparse, 0.53 -> 0.48
С fp32 сравнивать не буду, они б еще fp64 за бейзлайн взяли
git
blog