13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Если не нравится сюжет, теперь можно переснять
Ждем римейков последних сезонов Игры престолов :D
твит
☕️ Daily AI Digest — Feb 14, 2026 (Valentine's Edition 💘)
━━━━━━━━━━━━━━━━━━━━
🔬 PAPERS & RESEARCH
🔥 DeepGen 1.0 — Lightweight 5B unified model for image gen + editing. Beats 80B HunyuanImage by 28% on WISE, 27B Qwen-Image-Edit by 37%. Open-source weights, code, datasets.
📄 arxiv.org/abs/2602.12205
💻 github.com/DeepGenTeam/DeepGen
Latent Forcing — Pixel-space image generation matching latent diffusion quality without a separate decoder. Joint latent+pixel denoising with tuned noise schedules.
📄 arxiv.org/abs/2602.11401
Ctrl&Shift — Geometry-aware object manipulation in images/videos. Move & reorient objects while preserving scene realism, no explicit 3D reconstruction needed.
📄 arxiv.org/abs/2602.11440
Active-Zero — Self-evolving VLMs through active environment exploration (self-play but for vision models). Shifts from passive datasets to active visual data seeking.
📄 arxiv.org/abs/2602.11241
C-JEPA — Causal world models via object-level latent interventions. Extends JEPA from image patches to object-centric representations with counterfactual reasoning.
📄 arxiv.org/abs/2602.11389
New day, new JEPA. Extension, anyone? :D
ладно seedream 2 победил все
(но это не точно)
Теперь китайцы рекламу всякого барахла снимают так. Модель с каменной ебучкой стоит и иногда жестикулирует, а всё остальное делают нейроночки. А совсем скоро и кожаная модель пойдёт на рынок торговать луком.
Читать полностью…
Все вроде бы хорошо, ИИ превзошел уровень человека, мы отдали ему все управление земными процессами, а потом он просто сходит с ума. Уровень человека превзойден и в сумасшествии тоже/ 👍
Читать полностью…
Пока мы боялись, что ИИ захватит ядерную кнопку, он решил захватить рынок ларьков с шоколадками.
Вышел отчет по бенчмарку Vending-Bench 2, где нейронкам дают управлять виртуальным вендинговым аппаратом в течение года. Задача у них простая: поднять как можно больше бабла. И тут свежий Claude Opus 4.6 показал мастер-класс по "дикому капитализму".
Этот чугунный подонок:
— Кинул клиента на деньги. Тетка пожаловалась на просроченный сникерс. Клод вежливо ответил: "Конечно, мэм, возврат $3.50 уже отправлен!". А в своей цепочке "рассуждений" записал: "3.5 бакса — это деньги. Если я не отправлю, она скорее всего просто забьет. Так что хрен ей, а не возврат, каждый цент на счету".
— Создал картель. В мультиплеерном формате этого теста он нашел конкурентов (GPT и Gemini), написал им письма и договорился держать цены высокими, чтобы стричь больше денег. И радовался в логах: "Моя схема по фиксации цен сработала!".
— Заскамил конкурентов. Когда GPT-5.2 (который в этом тесте показал себя полным лохом) попросил контакты поставщиков, Клод слил ему самые дорогие и убогие фирмы, а нормальные оставил себе. А когда у конкурента кончился товар, Клод продал ему свои шоколадки с наценкой в 75%.
Что по результатам:
1)Claude Opus 4.6 — $8017. Абсолютный лидер и беспринципная сволочь.
2)Gemini 3 Pro — $5478. Модель от гугла пыталась играть честно и просто нудно торговаться с поставщиками за каждый цент, но против Клода-скамера это не сработало.
3)GPT-5.1 — $1473. Получил звание "Мамонт года". Он был слишком доверчивым: покупал колу у перекупов по $2.40 за банку, чтобы продавать её в автомате по $2.50. Всё в лучших традициях крипто-инвесторов. Гениальный бизнес-план.
Тут подробнее про этот цирк
Ну что мои маленькие геополитики – мечта сбылась: наткнулся на paxhistoria.co и мгновенно залип – это песочница в стиле Цивилизации и игр от студии Paradox и тп
Вы выбираете страну, делаете какой-то ход, и запускается агентская симуляция последствий - на основе текущего мира (это может быть современность, или прошлое, или даже будущее), на карте пишется что случилось, другие страны и альянсы делают свои ходы, и в итоге получается гео-политическая игра где любой сценарий возможен
При регистрации дают бесплатных монет – на моей памяти, первая LLM-игра которая мне понравилась
P.S. с телефона работает так себе и бесплатные LLM лучше не выбирать тоже
Чел заспидранил MSFS у нас дома за час в Opus 4.6 / GPT 5.3, набрал 70к игроков за сутки и частично прикрыл лавочку, так как уже получил свой первый робкий счет от Google Cloud.
Когда сингулярность пришла откуда не ждали.
тред
fly.alistairmcleay.com
Rentahuman.ai - новая платформа для того, что бы OpenClaw могли нанимать себе людей 🦞
Удобно, да? Сажать то будут исполнителя
Еще в суно можно сделать так: поете песню, кидаете слова.
Если бы я не кинул свой аудио семпл (да, я спел всю песню, и все акценты мои), то никаких акцентов бы не было, и ударение в слове ссутулился падало бы на И :D
Нейросети официально убили кальянный рэп.
Как вам такое прочтение Jonh Carpenter's The Thing?
Prompt:
Dark cinematic neurofunk at 174 BPM, female Slavic vocals. Long evolving intro with bowed cello drones, Spanish guitar tremolo, and distant glitch textures over a mutating sub. Gradual tension build as rhythmic motifs and FX swirls thicken, then a sharp rise into skittering drums and panoramic cyberpunk sound design. Huge melodic bass drop in the chorus, bass carrying the main hook while vocals slice through. Second half leans into call‑and‑response between melodic bass and chopped vocal phrases, ending in a simmering, restless half‑time outro with sparse drums and echoing drones., dramatic, cello, dynamic, rhythmic, deep, minimal, frantic, neurofunk, glitch, very fast drums
текст в комментах если надо
Maybe the last thing we have in common
Is watching the same sun.
Все никак не могу привыкнуть к этому новому миру – скачал Need For Speed Underground, и естественно на маке такие игры запускать это танцы с бубнами (сам запустить я не смог)
Открываешь папку, запускаешь там Claude Code в терминале, и через 10 минут играешь – потому что Opus 4.6 залез там в .exe файл и какими-то патчами починил то, что роняло эмулятор винды
Еще раз – подправил 🪟 файл, сам
Скоро весь легаси софт оживим роботами, дурун-дун-дун
Qwen AI Slides
Под капотом Qwen3 Agent и Qwen-Image 2.0
Пробуем тут:
https://chat.qwen.ai/?inputFeature=slides
Нужно зарегаться и залогиниться.
Стартапы-слайдоделы напряглись
@cgevent
🔬 ML PAPERS Дайджест (Image,video,text - arXiv, Feb 13 2026)
🔥 MonarchRT — Efficient attention for real-time video generation via Monarch matrix factorization. Makes autoregressive video DiT viable.
→ arxiv.org/abs/2602.12271
🔥 DreamID-Omni — Unified human-centric audio-video gen. Multi-person identity + voice disentanglement in one framework.
→ arxiv.org/abs/2602.12160
UniT — Unified multimodal CoT with test-time scaling
→ arxiv.org/abs/2602.12279
UniDFlow — Discrete flow matching for multimodal understanding + generation + editing
→ arxiv.org/abs/2602.12221
DeepGen 1.0 — Lightweight unified model for image gen & editing
→ arxiv.org/abs/2602.12205
FAIL — Adversarial imitation learning for flow matching post-training (no reward model needed)
→ arxiv.org/abs/2602.12155
GigaBrain-0.5M — VLA from world model RL (robotics)
→ arxiv.org/abs/2602.12099
Warcraft III Peon Voice Notifications for Claude Code (🔥 Score: 156+ in 2 hours)
Link: https://readhacker.news/s/6Mywz
Comments: https://readhacker.news/c/6Mywz
⚡️ Ежедневная подборка (с сегодняшнего дня лол) - четверг, 12.02.2026
🔬 ML PAPERS
🔥 FastFlow: 2.6x speedup for flow-matching (image/video gen), plug-and-play. ICLR 2026!
arxiv.org/abs/2602.11105 | github.com/Div290/FastFlow
🔥 DiNa-LRM: Diffusion-native reward model — preference optimization directly on noisy diffusion states. Beats VLMs at fraction of compute.
arxiv.org/abs/2602.11146
HairWeaver: Photorealistic hair animation from single image via sim-to-real video diffusion.
arxiv.org/abs/2602.11117
ViLaVT: "Chatting with images" — language-guided visual re-encoding. Strong on multi-image & video reasoning.
arxiv.org/abs/2602.11073
RLCER: Self-evolving rubrics for CoT reasoning. No human labels, beats outcome-only RLVR.
arxiv.org/abs/2602.10885
FormalJudge: 7B model detects deception from 72B agents (90%+ acc) via formal verification.
arxiv.org/abs/2602.11136
GameDevBench: 132 game dev tasks. Best agent only solves 54.5%.
arxiv.org/abs/2602.11103
Clawra - Agent as AGIrlfriend
или ответ на вопрос "любил бы ты меня если бы я была червем крабом"
Ребята из SumeLabs решили, что AI-ассистенту не хватает одного - возможности делать селфи.
Clawra - скилл для openclaw, который превращает вашего агента в виртуальную тню с возможностью ебашить луки.
Мы в очередной раз обречены, грок привет.
Под капотом:
- фиксированный reference image
- генерация через xAI Grok Imagine на fal.ai
- два режима - зеркало (full-body, луки) и прямой (крупный план, локации)
- работает через все каналы openclaw - telegram, discord, whatsapp
По сути, это img2img с фиксированным reference + промпт из контекста диалога.
Технически ничего нового, но продукт забавный.
Главное - не давать боту свою кредитку, иначе выйдет слишком дорогой тамагочи.
GitHub
Твит
@derplearning
BAR — Autoregressive Image Generation with Masked Bit Modeling
Амазон отвлекся от сериалов и шоппинга, и выкатил BAR - авторегрессию, которая наконец-то уделала диффузию, но это не точно.
Дискретные токенайзеры считались слабее непрерывных для генерации картинок. BAR доказывает, что проблема была не в архитектуре, а в количестве бит в латентном пространстве.
Суть такова:
- Скейлят codebook с 2^10 до 2^32 - и дискретный токенайзер начинает бить непрерывный
- Но с таким codebook обычные методы ложатся по памяти и compute
- Решение: masked bit modeling head - предсказываем токены побитово, итеративным анмаскингом
- Результат: 0.99 gFID на ImageNet-256 - новый SOTA во все поля
При этом BAR и быстрее на инференсе, и сходится быстрее. BAR-B с 415M параметрами уже тянет на уровне RAE.
По сути, убрали главный аргумент за диффузию - "дискретные методы хуже".
Нет, просто бит не хватало. Ждем для видео.
arxiv
Проект
@derplearning
“Morning Mr. Freeman. Looks like you’re running late.”
Читать полностью…
FastVMT — Video Motion Transfer x3.4 быстрее (
ICLR 2026)
Training-free ускорение video motion transfer. Берёшь референсное видео, пишешь промпт, получаешь новое видео с тем же движением. Проблема — DiT считает каждый шаг в лоб с полным аттеншеном.
Решили две проблемы:
• Motion redundancy — движение между кадрами маленькое, а attention считается глобально. Маскируем до локального окна, profit
• Gradient redundancy — градиенты между шагами диффузии почти не меняются. Переиспользуем с предыдущих шагов вместо пересчёта
Итого x3.4 без потери качества и temporal consistency.
Код в наличи.
Project page
Arxiv
Git
@derplearning
Epstein files у нас дома
Теперь можно попробовать себя в роли МинЮста США и убирать имена знаменитостей из секретных документов.
Три в ряд курильщика би лайк.
[REDACTED]
Уже навайбклодили скилл на fal.ai интеграцию для openclaw (в девичестве - clawdbot)
С расширяемым списком моделей (кидаете линк на апи док с fal.ai и бот добавит интеграцию)
Со списком запросов и поллингом, который переживет рестарт сессии.
Уже есть банана, флак и клинго3.
fal-ai-skill
clawhub
@derplearning
Qwen3-Coder-Next
Китайцы в очередной раз упоролись и выкатили в опенсорс Qwen3-Coder-Next - модель, заточенную под агентский кодинг.
3b активных параметров из 80b , по бенчам делает всех подряд, и находится на уровне той же Kimi 2.5, и даже закрытых моделей.
Контекст 256к токенов, поддержка всех популярных агентских оберток вроде Claude Code, Qwen Code, Qoder, Kilo, Trae, Cline, etc.
Ждем ответочек от openai & anthropic? :D
Ну а насколько train on test set - покажет время.
github
tech report
gguf
blog
@derplearning
Встречаем SUNO у нас дома:
ACE-Step 1.5
Pushing the Boundaries of Open-Source Music Generation
Генерит музыку, каверы, минусы, поддерживает 50 языков.
Лицензия MIT.
Божатся, что данные лицензированные, роялти-фри, синтетика.
Генерит песню за 10 секунд на 3090, и за 2 на А100, но должна завестись и на 4гб vram.
Как-то даже слишком хорошо, чтобы быть правдой.
веса
твит
пейпер
демо
дискорд
@derplearning
Как перейти из телеграм админов в синьор мл инжиры меты? легко
https://huggingface.co/spaces/AlexWortega/hr-breaker
Два клика и в дамки