Star Wars пластилиновые 80-ые
Совместил две Лоры для FLUX, генерация в Dream Machine:
Dark Fantasy + Clay
🐈⬛ Меня правда по идеи обогнали, но зато с уверенностью скажу, что потратил на это примерно один час, вот стрим, там сначала новости, а потом генерил.
Музыку взял отсюда. Я почему-то никак не могу добиться приятного звука из нейронок, меня очень бесит их шумность и артефактность.
Json в комментах, там все настройки и промпты.
📕 P.S. Сегодня ровно два года, как Stable Diffusion v1.4 стал доступен всем, сколько уже всего прошло с этого времени...
Вас рикролила поддержка?
Тут очень смешная история происходит: поддержка на базе LLM, добавляет несуществующие линки обучающих роликов, но вместо ролика пользователи получали прекрасную композицию Rick Astley - Never Gonna Give You Up
мне никогда не приходило в голову, что «рикроллинг глубоко встроен в обучающий набор для каждого LLM» — это реальная проблема, которая сделает жизнь многих команд ИИ невыносимойЧитать полностью…
Источник
Запускаем Flux GGUF в ComfyUI на Runpod и INPAINTING
👀 Второй ролик, где на новой модели вновь обучаемся азам ComfyUI, теперь пробуем inpainting, Lora и ControlNET с GGUF моделями. Постарался сделать .ipynb с закачкой заранее всех custom_nodes и моделей, а потому вы уже сразу после запуска сервера открываете готовый ComfyUI и сразу можно генерить! Когда-нибудь я дообучусь как docker делать и тогда процесс будет еще проще
📕 Пост в patreon (бесплатный)
со всеми данными к видео.
🐈⬛ Следующий пост постараюсь сделать не про Flux. простите, я так давно мечтал о Midjourney в локальном варианте, что не могу не нарадоваться.
FLUX DEFORUM!
🔥 https://github.com/XLabs-AI/deforum-x-flux.git 🔥
С интерполяцией по латентному пространству
Запускаем Flux на Runpod
😳 Сделал ролик как запустить Flux на Runpod и впервые пощупать ComfyUI, прикрепить лоры и ControlNet, в среднем на 2 часа генерации у вас уйдет 4$. Или совсем бесплатно при использование бесплатного Colab. Нужно будет только ждать A100, или работать только с квантизированной версии на T4.
Буквально год назад у меня был последний обучающий ролик, к сожалению после этого у меня было 15 разных заготовок под уроки и не одного финального монтажа. Потому этот ролик для меня был особенно важным, Flux с его уровнем генерации MJ v6.1 зажег во мне желание вновь делиться обучающим контентом в Youtube.
TGM5gNu4wYmh7bpEkPjRNdZPwcSEf81nNh
UQAWg5AzHdKoXVEZk2MvhclFF8YEoYWXV6Niup1-TQy7O3mO
Читать полностью…
RunwayML Gen-3 Alpha Turbo
Gen-3 Alpha Turbo — Image2Video может генерировать видео в 7 раз быстрее и за половину цены оригинального Gen-3 Alpha. Теперь доступно и без подписки, для новых пользователей около 300 секунд генераций бесплатно. И я наконец-то могу попробовать вживую, мои карты заблочил Runway🐈⬛
📕 Сравнил с Клинг на варианте с котами, которые моют посуду и по итогу в Gen-3 Alpha Turbo котов трясло и постоянно они протекают. А в Клинг (пример в комментах)
спокойно намывают с простым промптом: Cat wash dishes
Если кто-то поможет сравнить с Runway Gen-3 обычной с простым промптом, то прикрепил картинки в комментах.
☺️ Как же хочется такую локальную модельку в ComfyUI с возможностью управления видео как в AnimateDiff.
Док про промпты для runwayml.
FLUX1[dev] полезные ссылки
📕 FLUX очень быстро развивается, а информация про него выходит практически каждый час, я решил собрать все полезные ссылки в одном посте, чтобы вам было легче начать делать что-то безумное.
🔄 Требования к VRAM снизились с 24 до 12 ГБ относительно быстро, и теперь, с поддержкой bitsandbytes и NF4, можно генерить на 8 ГБ и, возможно, 6 ГБ с 3,5-4-кратным увеличением скорости вывода.
🐈⬛ Начнем с приятных гридов с разными настройками и сравнениями:
— Сравнение сэмплеров и шедулеров
— Минимальное количество шагов для каждого семплера
— Сравнение с другими моделями
— Guidance тест
❤️ Основные части FLUX:
— Попробовать бесплатно погенерить FLUX PRO (20 картинок) | FLUX Dev | FLUX Dev ControlNET Canny
— FLUX.dev checkpoint
— Как обучать Лору для FLUX на 24GB
— FLUX.dev nf4, который позволяет генерировать на картах 12GB + (Пока правда не понял как прикрепить уже готовые Лоры к нему)
— Коллекция Лор, для ComfyUI берем comfy_converted
— Коллекция Лор от коммьюнити
— Canny ControlNET
— Генератор промптов + image caption на HF
— Генератор промптов на основе ChatGPT
😮 JSON воркфлой для ComfyUI:
— Базовый
— Пак продвинутых
— Мой адаптированный воркфлоу будет в комментах + экстра
🔥 Интересные посты о тонкой настройки для супер качества:
— Невероятного качества воркфлоу, только даже при A100 40GB генерит 8 минут на картинку 1024x1024px
🔄 FLUX существует меньше месяца, а уже невероятно развивается во всех направлениях, ожидаем пак ControlNetов, IPAdapter и поддержку видео моделей.
📕 FLUX.1 от Black Forest Labs VS Midjourney V6.1
🔄 Новая опенсоурс модель FLUX сейчас ярко обсуждается в коммьюнити text2img, модель отлично генерит текст, руки, а так же показывает хорошие результаты со сложными йога позами, например.
— В доступе 3 варианта, PRO по API, DEV, Schnell (1-4 шага для генерации)
— Есть уже сравнения и с SD3 и с SDXL, модель очень хорошо понимает текст.
🍎 Так же модель уже доступна в ComfyUI, обязательно обновите ComfyUI перед запуском. Небольшой туториал как поставить.
🐈⬛ Минусы — модель без коммерческой лицензии и требует от 16GB+ видеопамяти
🔄 Я же решил сравнить его с недавно вышедшим Midjourney v6.1, который хуже слушается текста, платный и закрытый, но дает меньше артефактов нейронок (пережаренность картинки, небольшой мультяшность кожи, сильных контраст деталей).
📕 В превью перемешены MJ v6.1 генерации и FLUX.1. Сможете определить что есть что?
Kling генерации
⭐️ Приятное видео воссоединения одного и того же человека в молодости и в старости.
🧠 Все это сделано в Kling видеонейронке. Предварительно сшив две фотографии из разного возраста звезд в одну картинку и похоже подав с промптом на обнимание. 🐈⬛Доступ к видеонейронке только с валидным китайским номером.
☺️ Хотя с таким же подходом можно подать видео в Dream machine
Arata Fukoe и его невероятный клип через нейронки
🍎 Автор работы уже делал невероятные вещи через Gaussian Splatting и множество гопро камер, а теперь показывает мастерство клипмейкинга через нейронки.
Музыка: ChatGPT, Sunoai
Видео: DreamMachine, Gen-3, Kling
Картинки: MJ, SD
Монтаж: Photoshop, After Effects
📕 Это если мы говорим о полных нейронных видео, но можем посмотреть на классические работы с небольшими вставками нейронок:
Видеоклипная работа Ramzoid (Это один из любимчиков Славы Мэрлоу, а так же мой любимый артист)
в этом клипе часто используется generative Fill от Adobe, когда края картинки дорисовываются, а центр остается оригинальным видео.
И так же есть момент с DreamMachine, сцена в прачечной, когда мы берем последний кадр из видео и подаем в видеонейронку для артового продолжения кадра.
Успех и мемность видеомоделей, а так же некоторые старые приемы, которые мы видели уже 2 года назад, становятся вновь актуальными как части видеоэффектов для клипов.
ComfyUI LivePortrait
🔥 Отличная нода для ComfyUI по переносу эмоций и мимики. Сделал тест на самом сложном примере входного видео.
📕 Лучше добавлять крупного портрета картинки, а затем вшивать в генерацию. Но с коробки в некоторых вариантах работает даже очень хорошо.
👀 Весь процесс работает на insightface моделях (которое запрещает коммерческое использование)
🐈⬛ и на базе Reactor ноды
COMFYUI—WORKFLOW(JSON)
SORA не нужна 😅
Главная проблема визуальных моделей — это проблема контроля. Сделать красиво легко, а сделать как надо — это квест. С картинками проблему можно считать решённой (Controlnet, Dreambooth, IPAdapter и другие решения умельцев). С видео — пока всё только начинается.
Новая возможность #Luma — загружать не только начальный кадр, но и конечный, что позволяет делать генеративную интерполяцию (переход) между ними. Это кажется маленькой фишкой, но на самом деле это большой шаг к контролю, который, думаю, станет стандартом для многих (#Gen3 и прочих Клингов).
Если вы умеете в консистентную визуализацию и в целом круто управляете картиночными моделями, то перед вами открывается целое поле видео возможностей и СТОРИТЕЛЛИНГА. Я придумал уже с десяток способов интеграции в пайплайны с другими инструментами, и это даже при том, что пока генерации в Luma довольно сомнительного качества (пока что).
В приложении технический тест, где я использовал четыре кадра своего персонажа для презентаций, созданного в Dalle-3.
А вот-вот и Gen-3 выйдет, во многом не уступающий Соре по качеству. Так что последняя окажется в очень конкурентном поле.
What a time to be alive 🔥 (снова).
Comfyui становятся организацией
🔄 Их шуточные планы:
1. Улучшение API (я кстати ковыряюсь с api comfyui уже 2 недели, и мне это нравится)
2. Составление стандартов для Custom Node
3. ???
4. Comfy становится одним из основных блоков GEN AI экосистемы.
📕 Адекватные планы:
Comfy будет использовать передовые модели и быстрее решать проблемы на Github. Мы также улучшим пользовательский и разработческий опыт для авторов пользовательских узлов. Планируем делиться улучшениями на Github в разделе "Projects" и обсуждать их на наших серверах Discord и Matrix. Следите за обновлениями в нашем Twitter, Discord или на серверах Matrix.
Лол, оказывается, SD3 - Medium была ошибкой.
Чувак, который разработал Comfy UI, работал в Stability и недавно уволился оттуда, рассказав интересную инфу про SD3.
Сам мистер Комфи работал над 4B версией, но поделился инфой.
Вот что теперь стало известно:
- Нет никаких censor layers. Из датасета просто реально вырезали все нюдсы, и в довесок разрабы что-то там подшаманили с весами (про последнее нет особо подробностей).
- "Safety training" — так теперь называется кастрация датасета, которая факапит анатомию людей и не дает генерить NSFW.
- Более того, уже в самом начале разрабы напортачили с претрейном. Так что 2B вообще не собирались релизить.
- Причиной релиза стало "давление сверху". То есть, в целом мы могли бы получить 4B или 8B вместо всратой 2B Medium модели.
- Пока подтверждения о том, что выложат VAE, нет.
- Сам Комфи просто хотел сделать лучшую модельку для домашних ГПУ, но в Stability в последнее время штормит.
В итоге мы имеем мертворожденный релиз, который был просто одним из первоначальных экспериментом ресерчеров (которые уже уволились), выложенный просто чтобы успокоить кого? Инвесторов? Очевидно, что Stability, проходят через свои нелучшие времена, но я искренне надеюсь, что компания не развалится через год и продолжит радовать нас open source модельками. Хотя у меня большие сомнения по этому поводу, ведь весь ресерч костяк (мои бывшие коллеги по PhD в Хайдельберге) уже уволился.
Тред
@ai_newz
txt2video стал еще доступнее, Luma Labs выкатили свой и дают создать 30 видео в месяц бесплатно. Качество на уровне SORA
Положить сервис можно тут:
https://lumalabs.ai/dream-machine/creations
Midjourney v6.1 | Ideogram v2 | Flux1 Dev
Сделал сравнение 3 моделей:
📕 Постарался взять все базовые настройки, в данном случае размер mj и flux одинаковый, а вот вертикальные и горизонтальные картинки в ideogram меньше. При этом выборка у всех моделей была из 4 генераций батча по одному промпту.
Промпты:
— Реализм Гопро:
gopro, steampunk lady with a mohawk wearing a maki-e pattern kimono meditating at the Senso-ji Temple
hyper realistic, a mix of organic and mechanical elements into a never before seen creature
Sliced barbecue beef brisket on a wooden board, isolated against a white background. Detailed, natural lighting, sharp focus, high-resolution photography.
A work depicting a crazy wild yaks with a Tibetan style in the styles of Jean-Michel Basquiat and Keith Haring, having the styles of world art masters and featuring contemporary surrealistic elements.
(Но для Flux можно спокойно обучить Лору собрав датасет из MJ)
С точки зрения продуктовой картинки — Ideogram сгенерил детальный фон, но зря, так как в промпте запрашивалась картинка с белым фоном с изолированным блюдом от него, чтобы проще было вырезать затем. И при этом артовый вариант 100% уходит в Ideogram, понимание художников и смесь их концепта самая удачная! (художники для референса в коментах)
Нейронки требуют все больше и больше видеопамяти, тем временем 🔼Blender🔼
Мне как-то нужно поддерживать название канала, потому иногда буду вспоминать про вторую часть имени канала.
На самом деле это Blendersito, совершенно другая программа, нежели Blender (хотя ее пользовательский интерфейс во многом вдохновлен Blender)
, которая работает на Symbian OS. Как объясняется в readme:
— Не порт: эта программа не разделяет код с оригинальным Blender.
— Базовая функциональность: программа базовая, и некоторые СМИ преувеличивают ее текущие возможности.
(25 бесплатных генераций для всех)
и Ideogram обновился. Про первый я уже успел рассказать на стриме и готовлю небольшой пост.
Читать полностью…
FLUX IPADAPTER
📕 Модель еще в тренировки, но скорость развития инфраструктуры меня очень радует. Мб и AnimateDiff будет? Тогда уже процесс двух лет развития SD 1.5 сможет уместить в один месяц, с невероятным приростом качества.
HFвеса—COMFYUI—JSON
🍎 В комментах добавлю .ipynb с закачкой всех реп и моделей для IpAdapter Flux на RUNPOD + Два варианта настроенных мной пайплайна
@monkeyinlaw
FLUX detailer
🐈⬛ Тишина в канале, так как готовлю несколько новых обучающих роликов. Вчера на стриме в одном из тестов попробовал Detailer pipeline от Матео(пайплайн в комментах, но не адаптированный)
, который путем нескольких инъекций шума в латент по детальность превосходит MJv6.1(при том что размер картинки меньше)
. Есть еще офигенный урок от Матео про FLUX, про инпейтинг внутри базовой модели и т.д. Я адаптировал под свой урок, там будут gguf версии и уже можно на 16GB+ картах запускать и inpainting и Lora, еще иногда ControlNet влезает. (пайплайн в комментах, кидаю раньше урока)
☺️ А в превью генерации в FLUX c Лорой пластилиновой вороны(На Flux Dev без квантизации не сильно активируется, нужен gguf)
и Лора на N64 стиль.
А еще...
@monkeyinlaw
Flux Depth для видео генераций
🔥 Автор сделал видео с помощью Depth ControlNet для Flux и Dream Machine с двумя ключевыми кадрами и промптом:
— "epic ____ transformation"
— "epic liquid transformation"
📕 Сегодня я как раз показал на стриме, что ControlNet для Flux уже спокойно запускается в ComfyUI в стандартной ноде Apply ControlNet.
🐈⬛ Json для ComfyUI.
@monkeyinlaw
Фотореалистичность во FLUX
Пока FLUX Union ControlNET только ждет адаптирование под ComfyUI, поигрался с фотореализмом генераций.
📕 FLUX Union ControlNET содержит в себе 7 моделей и пока доступен в diffusers: canny, tile, depth, blur, pose, gray, low quality
Собрал json для фотореализма + апскейл (в комментах)
Лоры: Реализм | Пленка
🔥 А тут собрал Glif —> MonkeyInLaw/glifs/clzt52fo70000bq1z9nrt7uoq">можно погенерить 20 картинок бесплатно в день (Совсем недавно было 100 🐈⬛🐈⬛)
Glif — кстати позволяет не только бесплатно генерить картинки, но еще и собирать пайплайны под свой вкус с огромным выбором LLM, text2image, и даже ComfyUI есть для особо желающих кастомы делать (правда пока с минимальным набором нод и моделей)
Еще завтра планирую стрим по Flux и Glif, подробнее тут.
@monkeyinlaw
День за днём новости все жарче!
Kling раскатили на весь мир. Регистрация просто по почте. Ожидаются кратковременные лежащие сервера. Хотя интересно как китайцы подготовились к наплыву.
Бегом тестить на klingai.com
@ai_newz
Подборка интересных новостей за неделю
🐈⬛ LIVE PORTRAIT
Позволяет перенести эмоции и липсинг с видео на вашу портретную генерацию. Делает это очень хорошо и ОЧЕНЬ БЫСТРО.
Пост о нем ранее, а вот тут вышел качественный стрим/обучалка про то как его использовать. Очень хорошо дополняет видеогенерации из AnimateDiff, Kling, Luma, RunwayML.
Примеры использования:
LivePortrait+Custom codes
Gradio standalone APP | Обучалка как поставить себе на винду
LivePortrait Test in ComfyUI with GTX 1060 6GB
Vid2Vid test
AnimateDiff and LivePortrait Аниматоры точно оценят!
🔄 CONTROL NET all in ONE
Огромный зоопарк наконец-то качественных моделей в одном чекпоинте для CоntrolNet для SDXL + Tile Deblur, Tile Super Resolution, Image Inpainting, Image Outpainting, больше почитать можно тут.
Доступен в ComfyUI со стандартными нодами для ControlNET.
GITHUB
📕 COMFYUI
— Новые модели: Stable Audio, SD3 ControlNets, AuraFlow (новая текстово-графическая модель от fal.ai)
— Еженедельные версионированные релизы ComfyUI (первая версия v0.0.1)
— BetaUI с управлением рабочими процессами
— Более быстрое рассмотрение запросов на изменения (PR) и проблем (Issue) всей командой
BLOG
🧐 Анимация — AnimateDiff с маской для attention в ip-adapter + SDXL + motion Lora
IC Light для видео в ComfyUI
🔄 Сделано на базе ComfyUI-IC-Light и отлично работает с персонажами и лицами.
🐈⬛ Очень плохо работает с локациями и сложными объектами.
WORKFLOWS—YOUTUBE(инструкция на английском)
Отдельно конечно хочется сказать, что автор пайплайна сделал это в 20 кастомных нодах, которые с нуля накатывать прям боль:
Custom Nodes:Читать полностью…
1. https://github.com/daxcay/ComfyUI-JDCN.git
2. https://github.com/bronkula/comfyui-fitsize.git
3. https://github.com/kijai/ComfyUI-IC-Light.git
4. https://github.com/kijai/ComfyUI-KJNodes.git
5. https://github.com/mcmonkeyprojects/sd-dynamic-thresholding.git
6. https://github.com/cubiq/ComfyUI_essentials.git
7. https://github.com/giriss/comfy-image-saver.git
8. https://github.com/M1kep/ComfyLiterals.git
9. https://github.com/theUpsider/ComfyUI-Logic.git
10. https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git
11. https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved.git
12. https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet.git
13. https://github.com/shiimizu/ComfyUI_smZNodes.git
14. https://github.com/Suzie1/ComfyUI_Comfyroll_CustomNodes.git
15. https://github.com/Nourepide/ComfyUI-Allor.git
16. https://github.com/WASasquatch/was-node-suite-comfyui.git
17. https://github.com/Fannovel16/ComfyUI-Video-Matting.git
18. https://github.com/Fannovel16/comfyui_controlnet_aux.git
19. https://github.com/comfyanonymous/ComfyUI_experiments.git
20. https://github.com/ltdrdata/ComfyUI-Impact-Pack.git
Runway выкатили Gen3 для всех
Как постоянный пользователь уже успела протестировать новую модель. По мне так много удобного и долгожданного — к модели прилагается отличный и понятный справочник по терминам и свету.
10 секунд я генерировала примерно пару минут, но скорее всего сейчас очередь станет больше. Управляемость малая, никаких кистей пока нет, только промт. Важно: никаких оживлений тоже нет, пока все только генерация с нуля. Результаты можете оценить сами.
Что показалось классным кроме гайда — возможность киношных стилей и сохранение ассетов — наконец-то инструмент для киношников и творцов, а не штамповщик реалистичных стоковых кадров!
Пока работает только в вебверсии на сайте, нет в приложении.
Luma выпустила интерполяцию между кадрами
📕 Теперь в Luma Dream machine доступно добавление первого кадра и последнего, это позволяет лучше контролировать сцены и скрещивать миры, которые казалось бы никогда не могли находиться в одном пространстве.
🐈⬛ Вчера всю ночь игрался с вариантами, особенно хорошо зашло с новой нодой для ComfyUI от создателя IP Adapter, где можно контролить точечно атеншин, и мем с котом в ученого, как раз был создан через точечный перенос стиля с двух совершенно не похожих объектов (Мемный кот и старая фотка человека с видеоприемником похожего на VR шлем)
LUMA
P.S. У меня есть хорошие новости для всех кто помнит мои обучалки на ютьюбе, а так же кто скучал по моей творческой части канала. Анонсирую второй сезон обучающих роликов и стримов по ComfyUI/Blender и новинок нейронок
Поглядим на арену для text2img
https://imgsys.org/rankings - аналог LLM Arena только для картинок, и самое интересное, что с учетом всех провалов SD3 на 2B параметров(1, 2, 3) интересно посмотреть на её место в этом ранге. Особенно после истории с удалением всех моделей и даже возможности файнтюна на Civit.ai
Пока результат SD 3 2B, даже ниже PixArt-Σ (есть интересный пост о файнтюне PixArt-Σ).
А первые места в арене занимают три модели:
— RealVisXL V4.0 с 35 шагами инференса
— ColorfulXL-Lightning c 9 шагами инференса (С учетом скорости я бы выбирал эту модель, пример картинок на разные промпты)
— ColorfulXL с 34 шагами инференса
Кажется что от SD3 2B полностью отвергнуто комьюнити и ожидать контролнетов и лор даже не стоит.
Gen-3 Alpha от RunwayML
RunwayML анонсировали свою новую виденейронку —
Обученная совместно на видео и изображениях, Gen-3 Alpha будет поддерживать инструменты Runway для преобразования текста в видео, изображения в видео и текста в изображение, а также существующие режимы управления, такие как Motion Brush, Advanced Camera Controls, Director Mode и будущие инструменты для более точного контроля над структурой, стилем и движением.
Gen-3 Alpha будет выпущена с новым набором мер безопасности, включая нашу новую и улучшенную систему внутренней визуальной модерации и стандарты происхождения C2PA.
(Motion Brush, Advanced Camera Controls, Director Mode)
Забочусь о вашей памяти на телефоне, сжимаю как шакал.Читать полностью…
🔥Веса SD-3 Medium уже доступны!
Как и обещали, Stability релизнули Stable Diffusion 3 Medium с двумя миллиардами параметров. Она бесплатна для некоммерческого пользования. За коммерческое использование придётся платить: $20 в месяц для индивидуальных пользователей и небольших бизнесов, для бизнесов побольше - энтерпрайз лицензия.
Поддержка модели уже есть в ComfyUI, для автоматика придётся подождать.
Судя по публичным заявлениям сотрудников Stability, 8B модель ещё тренируется. Но непонятно почему не релизнули 800m "Small" версии.
Блогпост
Веса
@ai_newz