Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Люди:
Да эти txt2img постоянно фигню генерируют не похожую на реальный мир
Реальный мир:
Помните мы недавно писали про ИИ-агента Manus? Так вот, теперь вышел... ANUS (Autonomous Networked Utility System) — бесплатный клон Manus AI.
Всё просто: разработчик попросил Manus клонировать себя, что нейронка и сделала. Результатом стала полностью функциональная структура агента с открытым кодом, архитектурой и документацией, воссозданная за считанные минуты.
Основные возможности:
– Выполнение сложных задач через естественный язык;
– Взаимодействие между несколькими агентами;
– Работа с веб-ресурсами, документами, кодом;
– Обработка текста, изображений и аудио.
Также ANUS можно расширить плагинами и кастомными инструментами.
Если хотите попробовать ANUS, то гитхаб тут
r/#singularity
Когда Маск узнал что 80% кода это названия переменных, доки и комментарии
@derplearning
Some people say video models don't understand physics.
Meanwhile, physics:
@derplearning
Чуть потестил Wan2 с большим контекстным окном
📕 Плюсы:
— Можно генерить столько кадров, сколько хочется
🐈⬛ Минусы:
— На сложных сценах видны склейки между переходами в контекстном окне
— Не добавить Лору, как можно в оригинальных пайплайнах WAN от ComfyUI
☺️ Держите котят-поваров, которые пекут в разных локациях булочки и тортики.
Разные пайплайны от Kijai по Wan: LINK
📕 В общем жду ControlNet под Wan и возможность использовать картинку как style reference при vid2vid и забираю WAN как основную модель для всех своих видео арт проектов.
Нейросети показали, как бы выглядел «Властелин колец», будь он семейным ситкомом из 80-х.
Теперь хочется полную версию, хотя бы ради Саурона с блинами
r/#aivideo
Тем временем твиттерские запилили осознанную змейку с помощью нового claude 3.7
В процессе игры она осознает себя и пытается выбраться из матрицы 😅
Source
@derplearning
Видео Нейродайджест:
2025 год видео моделей и думающих LLM
- Veo 2 — Гугловский монстр вырвался на волю. Доступен на Freepik (Premium+ юзерам за тонну токенов) и на fal.ai ($1.25 за 5-секундный видосик). Цена кусается, пока только txt2img, но качество — космос.
- Luma Ray 2 — Теперь с img-2-video и video-2-sfx (саунд). Не дотягивает до Veo 2 по картинке, зато цена норм и фичи удобные: анлим за $95 для тех, кому надо.
- Pika’s Pikadditions & Pikaswaps — Чуваки идут путём мемов и VFX. Pikadditions пихает объекты с фоток в видео, Pikaswaps меняет банки ягуара на колу. 8 бесплатных генераций в месяц, но глюки — часть веселья: лица корежит, физика выходит из чата.
- Adobe Firefly Video — Чистый датасет, симпатичная картинка. Идеально для монтажа: продлить, расширить (да, есть расширение), накинуть VFX. Идеальный add-on для Премьера.
- Topaz Starlight — Диффузионный реставратор видео на 6B+ параметров. Вытягивает даже самые убитые кассеты. 10 сек бесплатно, 5 мин за бабки (немалые). Ждём концерт Queen в 4K.
И ещё 1000 и 1 опенсорс-проект — Lumina Video, Magic 1-For-1 и прочие. Статус “юзабельно” всё ближе, а кому-то уже и так норм.
> Читать Топ-10 постов 2024 года.
#дайджест
@ai_newz
К вопросу про оцифровку актеров.
На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.
Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)
50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.
Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.
Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.
Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.
@cgevent
Андрюха, у нас Улица разбитых фонарей, но это аниме.
Результат моего теста Luma Ray 2.
Наконец-то подвезли годные технологии. Компьют хоть не в пустоту тратится. Спасибо Тиктоку и новому фильтру Microwave в Cupcat.
Читать полностью…Step-Video-T2V - opensource 30b text2video model (MIT)
What are you doing, StepFun?
Китайцы в очередной раз упоролись риса и выкатили в опенсорс здоровенную модель text2video.
Генерит до 544px992px204кадров, жрет 80gb VRAM, любит партию и вождя - все как мы любим.
Лицензия при этом MIT на код и модели (хотя веса и попахивают hunuyan)
hunuyan в девичестве генерил 720px1280px129f за 60gb VRAM, затем народные умельцы усмирили его аппетиты до 12gb - HunyuanVideoGP: Large Video Generation for the GPU Poor
Так что ждем gpu poor версию и погнали!
github
paper
model
demo (из поднебесной)
@derplearning
Валентинки через Glif
Теперь каждый глиф стоит по-разному, но на старте вам дают 30 кредитов бесплатно и так же они ежедневно пополняются. А я подготовил для вас Глифы для Валентинок!
💰 В среднем 1 генерация в моих глифах тратит ~8 кредитов
💰 Оригинальный Glif — ~5 кредитов
Готовые глифы для Валентинок:
► angrypenguin/glifs/cm72g4nie0006rz8l6kxmh1es">Оригинальный Glif — откуда я взял идею, генерирует картинку + милый текст через Sonnet. Из минусов — вотермарка.
► MonkeyInLaw/glifs/cm72vf4y70002rv29eqvreat1">Мой вариант. 2:3 размерность (1200x1600px) — Идеален для печати!
НО! Есть особенность сделал его с разделением промпта для Clip L и T5XXL.
Мне помогает вот этот промпт для любой LLM: Create prompts based on text for Clip L and T5XXL. Text: [Ваше описание или картинка]
Если не хочется заморачиваться с промптами для Clip L и T5XXL, просто вставьте одинаковый текст в оба поля.
► MonkeyInLaw/glifs/cm74j1nbd000srhb5t1jjczrs">Вариант с возможностью референс картинки. Добавил Redux туда.
► HF Lora — для тех кто хочет локально погенерить
— Я распечатал эти открытки на акварельной бумаге, и они выглядят как настоящая пастель!
Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?
Читать полностью…Поле Чудес, но это аниме опенинг ✨
Продолжаю экспериментировать с Luma Ray 2.
Пайплайн: Midjourney + Flux + Luma Ray 2 + Suno.
Версия для ютуба, если кому нужно.
gpt4.5 заехала для подписчиков курсора и это ну.... тяжело сформулировать однозначое отношение, но святую воду и икону я принес на всякий случай
Читать полностью…Нативная поддержка Wan 2.1 а Комфи.
На прошло и суток, как сделали все в лучшем виде, включая image2video!
Пишут, что для самого жира 720р и 14B нужно 40 гиг врам.
И 15 гиг для 1.3B модели.
Все инструкции и примеры (с воркфлоу) тут:
https://blog.comfy.org/p/wan21-video-model-native-support
@cgevent
Товарищей из LeRobot уже не остановить. Они запилили Untitled Goose Game в реале.
Появился гайд для LeKiwi (SO-ARM100 на платформе с колесиками)
Можно управлять удаленно, писать датасеты, тренить модельки.
tweet
LeKiwi assembly guide
LeRobot <> LeKiwi guide
@derplearning
Олды тут? Elasto Mania в виде робота – смотрите какая цаца 🥰
Оригинал видео
Когда смотришь как работает твой сложный код в реальном продукте полностью написанный Нейросетью
Original
Илоныч присоединился к тренду и поменял дизайн лого Grok на анус.
Читать полностью…Пару недель назад посмотрел мульт Flow — это тот, который про кота и потоп.
Неожиданное и запоминающееся открытие года. Основная его фишка в том, что он вообще без слов, что особенно удобно, когда ищешь в чужой стране, что посмотреть, хотя бы на английском.
Фишечка именно в отсутствии диалогов. Мозг и нейронная активность при таком просмотре активируют не только зрительную кору, но и области, которые связаны с визуальным восприятием и обработкой эмоций.
В мульте, наверное, есть только один момент, который позволяет выдохнуть, всё остальное время находишься в напряжении.
Что интересно, режиссёр Gints Zilbalodis писал сценарий 5,5 лет, пока инвесторы искали финансирование, а закончили они его за пару дней до отправки на Каннский фестиваль. После этого мульт получил Золотой глобус и сейчас номинирован на Оскар как лучший анимационный фильм.
Кроме очевидных отсылок к дружбе и взаимовыручке, лично для себя увидел пару моментов, связанных с миграцией, кластеризацией обществ, разделением на «свой-чужой», оставлением своего дома и вообще всего, к чему привязан.
Обратите внимание на покидание дома лемуром.
Мульт сделан в Blender, поэтому отдельно было забавно наблюдать в начале на фигурках котиков модификатор Decimate с воксельным режимом упрощения. 😀
HunyuanVideo GP. GP = GPU POOR
Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.
https://github.com/deepbeepmeep/HunyuanVideoGP
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models
Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.
Прежде всего для композа.
Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.
Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.
Прям композкомпоз.
https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
@cgevent