Telegram-канал derplearning - Derp Learning: Unsorted

Derp Learning

04 March 2024 14:12

Opensource решения для достижения качества SORA

Banodoco — опенсорс сообщество, которое много раз меня вдохновляло на новые идеи в создании анимаций через AnimateDiff и Stable Diffusion Video. Недавно они написали в дискорде по поводу развития опенсоурс видеонейронок:

SORA невероятно впечатляет, но контроль является самым важным аспектом для создания великого искусства, и благодаря работе сообщества, AnimateDiff сейчас значительно превосходит по точности управления движениями.

Чтобы дальше улучшить управление в AnimateDiff и помочь в раскрытии силы/ценности художественного контроля, мы можем сделать следующее:

№1: Удвоить наше преимущество в управлении, создав открытую армию Motion LORAs.

№2: Использовать весь наш контроль, чтобы создавать удивительное работы по всему миру.

Это краткое изложение основных моментов предложения по улучшению контроля в AnimateDiff и поощрению художественного контроля с использованием нейронок и открытых источников.

И действительно армия Лор уже начинает формироваться, вот некоторые из них:

Bubbling Rings
ANTs
Drone Orbit

Обучалка на английском как добавить Motion Lora в A1111 (с зумерским монтажом) — Тут
Большая обучалка-стрим на английском про AnimateDiff в ComfyUI — Тут

От меня размышления: SORA ролики действительно впечатляют, только это черный ящик, судя по Dalle, где мы получаем невероятное понимание текста и при этом невероятные блоки на реализм, своих персонажей и качества выше 1024px, SORA будет такой же. Еще по GPU ресурсам: Не понятно сколько кластеров H100 используются для создания одного полминутного ролика.
Opensource варианты уже сейчас позволяют создавать 8к реалистичные картинки (да, это потребует опыта, кастомных решений и чуть больше прайса, чем одна картинка в Dalle).
Теперь мы приближаемся к видео генерациям, где у нас под контролем будут все параметры, при этом весь пайплайн будет собираться на локальных 3090 или T4 в аренде.