13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Все вроде бы хорошо, ИИ превзошел уровень человека, мы отдали ему все управление земными процессами, а потом он просто сходит с ума. Уровень человека превзойден и в сумасшествии тоже/ 👍
Читать полностью…
Пока мы боялись, что ИИ захватит ядерную кнопку, он решил захватить рынок ларьков с шоколадками.
Вышел отчет по бенчмарку Vending-Bench 2, где нейронкам дают управлять виртуальным вендинговым аппаратом в течение года. Задача у них простая: поднять как можно больше бабла. И тут свежий Claude Opus 4.6 показал мастер-класс по "дикому капитализму".
Этот чугунный подонок:
— Кинул клиента на деньги. Тетка пожаловалась на просроченный сникерс. Клод вежливо ответил: "Конечно, мэм, возврат $3.50 уже отправлен!". А в своей цепочке "рассуждений" записал: "3.5 бакса — это деньги. Если я не отправлю, она скорее всего просто забьет. Так что хрен ей, а не возврат, каждый цент на счету".
— Создал картель. В мультиплеерном формате этого теста он нашел конкурентов (GPT и Gemini), написал им письма и договорился держать цены высокими, чтобы стричь больше денег. И радовался в логах: "Моя схема по фиксации цен сработала!".
— Заскамил конкурентов. Когда GPT-5.2 (который в этом тесте показал себя полным лохом) попросил контакты поставщиков, Клод слил ему самые дорогие и убогие фирмы, а нормальные оставил себе. А когда у конкурента кончился товар, Клод продал ему свои шоколадки с наценкой в 75%.
Что по результатам:
1)Claude Opus 4.6 — $8017. Абсолютный лидер и беспринципная сволочь.
2)Gemini 3 Pro — $5478. Модель от гугла пыталась играть честно и просто нудно торговаться с поставщиками за каждый цент, но против Клода-скамера это не сработало.
3)GPT-5.1 — $1473. Получил звание "Мамонт года". Он был слишком доверчивым: покупал колу у перекупов по $2.40 за банку, чтобы продавать её в автомате по $2.50. Всё в лучших традициях крипто-инвесторов. Гениальный бизнес-план.
Тут подробнее про этот цирк
Ну что мои маленькие геополитики – мечта сбылась: наткнулся на paxhistoria.co и мгновенно залип – это песочница в стиле Цивилизации и игр от студии Paradox и тп
Вы выбираете страну, делаете какой-то ход, и запускается агентская симуляция последствий - на основе текущего мира (это может быть современность, или прошлое, или даже будущее), на карте пишется что случилось, другие страны и альянсы делают свои ходы, и в итоге получается гео-политическая игра где любой сценарий возможен
При регистрации дают бесплатных монет – на моей памяти, первая LLM-игра которая мне понравилась
P.S. с телефона работает так себе и бесплатные LLM лучше не выбирать тоже
Чел заспидранил MSFS у нас дома за час в Opus 4.6 / GPT 5.3, набрал 70к игроков за сутки и частично прикрыл лавочку, так как уже получил свой первый робкий счет от Google Cloud.
Когда сингулярность пришла откуда не ждали.
тред
fly.alistairmcleay.com
Rentahuman.ai - новая платформа для того, что бы OpenClaw могли нанимать себе людей 🦞
Удобно, да? Сажать то будут исполнителя
Еще в суно можно сделать так: поете песню, кидаете слова.
Если бы я не кинул свой аудио семпл (да, я спел всю песню, и все акценты мои), то никаких акцентов бы не было, и ударение в слове ссутулился падало бы на И :D
Нейросети официально убили кальянный рэп.
Как вам такое прочтение Jonh Carpenter's The Thing?
Prompt:
Dark cinematic neurofunk at 174 BPM, female Slavic vocals. Long evolving intro with bowed cello drones, Spanish guitar tremolo, and distant glitch textures over a mutating sub. Gradual tension build as rhythmic motifs and FX swirls thicken, then a sharp rise into skittering drums and panoramic cyberpunk sound design. Huge melodic bass drop in the chorus, bass carrying the main hook while vocals slice through. Second half leans into call‑and‑response between melodic bass and chopped vocal phrases, ending in a simmering, restless half‑time outro with sparse drums and echoing drones., dramatic, cello, dynamic, rhythmic, deep, minimal, frantic, neurofunk, glitch, very fast drums
текст в комментах если надо
Maybe the last thing we have in common
Is watching the same sun.
Kimi K2.5 у нас дома + BitNet CPU Inference Optimization
Пока все отвлекались на Epstein Island: Christmas Edition GTA 6 Greenland,
unsloth, дай ему б-г здоровья, скачал и пожал Kimi K2.5 вплоть до читерского UD-TQ1_0, который 1 бит (или 1.58 не-маркетинговых битов)
Вся эта радость влезает на любое железо, где есть 256гб любой (sic!) памяти.
rtx 4090 24gb + 256gb ram/fast ssd = 5tokens/s для 1.58 бит.
Плюсом к этом GPU тоже больше нинужны, если у вас есть много свободного времени, так как:
Microsoft завезли оптимизаций для CPU-инференса в свой BitNet, и 1.58б квант Kimi K2.5 можно теперь гонять как не в себя, но это не точно.
tweet
bitnet github
веса
GTA 6 : Greenland edition
Google genie 3
Судя по всему, мы будем жить в матрице ещё до того, как выйдет гта 6.
@derplearning
Пора вводить термин слоп-бренды?
Трендовые лоры с хиггсфилда в ассортименте 😁
Если вы до этого были не в состоянии попросить Claude code развернуть clawdbot на виртуалке, вот пошаговый гайд
Если вы жили под камнем, clawdbot - Jarvis у нас дома. Локальный ассистент, который может ходить в интернет, рендерить в канвасе, юзать Клод и чатгпт по апи, и все это в вашем любимом мессенджере (кроме парковочного)
Помнит все твои трещинки переписку, можно добавлять скилы из хаба тут
Само собой это опенсорс+ агент, поэтому секурные риски надо иметь в виду, равно как и торчащие наружу порты с вашей виртуалки.
Git (50k ⭐ за январь)
Сайт
@derplearning
Mmo chess doesn't exist, it can't hurt you.
Mmo chess:
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
Попытка пересадить эти ваши диффузии с иглы vae на rae.
Основная разница в том, что с rae латент больше отражает сущности нежели текстуры.
Если завалящий sd vae жмет rgb картинку 1024х1024х3 в 128х128х4, rae - в 64х64х1024
Так как даже в unet архитектуре stable diffusion основным ботлнеком по памяти был все равно аттеншен, новый подход позволяет обойти эту проблему, тк он больше чувствителен к количеству токенов, чем их размерности.
Модели на таком латентном пространстве учатся быстрее, инференсятся за меньшее количество шагов (хоть и более тяжёлых), все счастливы.
Все потому, что vae latent это просто уменьшенная картинка, а rae - семантическое описание сцены с общим указанием координат.
Hf paper
BAR — Autoregressive Image Generation with Masked Bit Modeling
Амазон отвлекся от сериалов и шоппинга, и выкатил BAR - авторегрессию, которая наконец-то уделала диффузию, но это не точно.
Дискретные токенайзеры считались слабее непрерывных для генерации картинок. BAR доказывает, что проблема была не в архитектуре, а в количестве бит в латентном пространстве.
Суть такова:
- Скейлят codebook с 2^10 до 2^32 - и дискретный токенайзер начинает бить непрерывный
- Но с таким codebook обычные методы ложатся по памяти и compute
- Решение: masked bit modeling head - предсказываем токены побитово, итеративным анмаскингом
- Результат: 0.99 gFID на ImageNet-256 - новый SOTA во все поля
При этом BAR и быстрее на инференсе, и сходится быстрее. BAR-B с 415M параметрами уже тянет на уровне RAE.
По сути, убрали главный аргумент за диффузию - "дискретные методы хуже".
Нет, просто бит не хватало. Ждем для видео.
arxiv
Проект
@derplearning
“Morning Mr. Freeman. Looks like you’re running late.”
Читать полностью…
FastVMT — Video Motion Transfer x3.4 быстрее (
ICLR 2026)
Training-free ускорение video motion transfer. Берёшь референсное видео, пишешь промпт, получаешь новое видео с тем же движением. Проблема — DiT считает каждый шаг в лоб с полным аттеншеном.
Решили две проблемы:
• Motion redundancy — движение между кадрами маленькое, а attention считается глобально. Маскируем до локального окна, profit
• Gradient redundancy — градиенты между шагами диффузии почти не меняются. Переиспользуем с предыдущих шагов вместо пересчёта
Итого x3.4 без потери качества и temporal consistency.
Код в наличи.
Project page
Arxiv
Git
@derplearning
Epstein files у нас дома
Теперь можно попробовать себя в роли МинЮста США и убирать имена знаменитостей из секретных документов.
Три в ряд курильщика би лайк.
[REDACTED]
Уже навайбклодили скилл на fal.ai интеграцию для openclaw (в девичестве - clawdbot)
С расширяемым списком моделей (кидаете линк на апи док с fal.ai и бот добавит интеграцию)
Со списком запросов и поллингом, который переживет рестарт сессии.
Уже есть банана, флак и клинго3.
fal-ai-skill
clawhub
@derplearning
Qwen3-Coder-Next
Китайцы в очередной раз упоролись и выкатили в опенсорс Qwen3-Coder-Next - модель, заточенную под агентский кодинг.
3b активных параметров из 80b , по бенчам делает всех подряд, и находится на уровне той же Kimi 2.5, и даже закрытых моделей.
Контекст 256к токенов, поддержка всех популярных агентских оберток вроде Claude Code, Qwen Code, Qoder, Kilo, Trae, Cline, etc.
Ждем ответочек от openai & anthropic? :D
Ну а насколько train on test set - покажет время.
github
tech report
gguf
blog
@derplearning
Встречаем SUNO у нас дома:
ACE-Step 1.5
Pushing the Boundaries of Open-Source Music Generation
Генерит музыку, каверы, минусы, поддерживает 50 языков.
Лицензия MIT.
Божатся, что данные лицензированные, роялти-фри, синтетика.
Генерит песню за 10 секунд на 3090, и за 2 на А100, но должна завестись и на 4гб vram.
Как-то даже слишком хорошо, чтобы быть правдой.
веса
твит
пейпер
демо
дискорд
@derplearning
Как перейти из телеграм админов в синьор мл инжиры меты? легко
https://huggingface.co/spaces/AlexWortega/hr-breaker
Два клика и в дамки
Нас наебали, расходимся 🤣
https://youtu.be/pXEVLaLNbH0?si=pgoPPnx9Y18gujUs
Оригинальный видос сделан через vid2vid в mago
Забавно, что автор твита уже дал заднюю, сказав что это всё шутка.
Правда, после того, как ему влепили community notice
Твит
Ориг видос
Опровержение
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме совсем оборзели. Некоторые ребята которых я менторил из-за этого вручную оптимизировали резюме под каждую вакансию. Почему бы не автоматизировать?
Навайбкодил за два вечера hr-breaker:
1. Загружаете резюме
2. Даете ссылку на вакансию
3. LLM вооруженная тулколами генерирует оптимизированное резюме (в том числе по советам из методички)
4. Делаются стандартные проверки: keyword matching, vector similarity, проверка LLM-кой (в том числе визуально, что всё не поехало), проверка на галлюцинации, проверка на очевидный AI-generated текст
5. Если хотя бы одна проверка не пройдена оптимизация продолжается
Важно, что всё сконфигурировано не врать и не изобретать опыта которого нет, поэтому получается очень неплохо. Но если у вас нет совести ничто вам не мешает поиграться с промптами 🤗
Скачиваете, подставляете свой ключ Gemini API, uv run и уничтожаете скрининг как явление. Добейте выживших
@boris_again
QMD - Quick Markdown Search
Ну и полезная тулза для этих ваших агентов - полноценный локальный поиск.
Чтобы не жрали токены, как не в себя, грепая поштучно файлы из вашей базы знаний.
BM25 full-text search, vector semantic search, and LLM re-ranking на llama.cpp, поддержка MCP.
Git
Интересно, как народ комбинирует 3Д-генераторы.
У каждого есть свои сильные и слабые стороны.
По идее все это должно быть прикручено к Блендору максимально нативно. Вон ComfyUI-ноды прикрутили к Худини, пора с нодами Блендора сделать также.
Тут:
Images from Grok Imagine,
Tripo for raw 3D generation,
Hunyuan 3D Studio for lowpoly and UV unwrap,
Trellis2 in ComfyUI for texturing + upscaling.
Blender final preparation.
Unreal Engine / UEFN shaders.
А представьте, что вы читаете такое 3 года назад...
P.S. Колеса полностью сделаны в Блендоре
@cgevent
https://www.youtube.com/watch?v=HHNLfxBxcvo
Террария неожиданно живёт, даром что инди.
Интересно, переживет ли Ubisoft? 😁