Nvidia хотят потягаться с FLUX, и скоро разродятся новым рисовачём Sana
Что нам обещают:
1 - Генерацию пикч 4096х4096 в 100 раз быстрее чем FLUX. (в 1024х1024 в 40 раз)
2 - Высокое качество пикч и точное следование промпту.
3 - Выпустить исходный код и модель в опенсорс.
По их тестам - генерация 1024 на 1024 на RTX4090:
Sana (FP16) - 0.88c
Sana (W8A8) - 0.37с.
ОБНОВЛЕНИЕ.
[Файлы AINetSD] 38. FluxGym-AINetSD - /fluxgym_ainetsd (обновлено до версии 1.1)
Что нового?
1 - Автоматическая генерация примеров изображений.
2 - Добавлена функция «Опубликовать в Huggingface»
3 - 100% поддержка функции Kohya sd-scripts.
4 - Автоматическая загрузка моделей (нет необходимости вручную загружать модели)
5 - Поддержка пользовательских базовых моделей (не только flux-dev, но и любых других, просто нужно включить их в файл models.yaml.
Поддерживаемые flux модели:
Flux1-dev
Flux1-dev2pro
Flux1-schnell
Модель автоматически загружается, когда вы начинаете обучение с выбранной моделью.
Установка:
Запустить "Установка torch и прочего.bat" для загрузки всех необходимых библиотек.
После - "Запуск FluxGym.bat"
Доступно в @AINetSD_bot
Тут кое-кто возмутился, мол чего это не gpt песенку написал, вот специально вот для @srg_vlcv песенка придуманная chatgpt-4o-latest-20240903
промт - "Придумай песню вот для этого человека:
вот что он написл - "сначала подумал "ого, нейронка наконец то придумала текст в рифму", жаль""
Китайцы снова радуют: Controlnet-Inpainting-Alpha
Оказывается ещё 4 дня назад команда Alimama Creative из Alibaba(те что владеют Taobao и Aliexpress) выкатили нам контролнет для flux - Inpainting, пока в альфе, обещают в скором времени допилить. Обучают на 12M laion2B а так же на других пикчах в разрешении 768х768
controlnet_conditioning_scale рекомендуют 0,9 - 0,95, ещё говорят что в разрешениях отличных от 768х768 результаты так себе, в комфи пока вроде не пощупать, но разрабы обещают адаптировать
https://huggingface.co/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Alpha
ОБНОВЛЕНИЕ.
Подчат AINetSD - NSFW18+🔥 чат изменился.
теперь это - @Male_chat
Залетайте)
P.S - тем кто ставят дизлайки к посту "👎", тем посылаю лучи поноса.
Тут vladmandic завёз в свой SD.Next поддержку Flux
Но есть нюанс.
Поддержка прикручена через diffusers.
Православные модельки от lllyasviel не поддерживает, модельки от City96 тоже, но обещает скоро завести поддержку GGUF.
Что бы собственно сейчас пощупать Flux на SD.Next нужно зайти в авгиевы конюшни Networks, и найти там и кликнуть на Flux, после чего вы получите 40 гигов отборного Flux dev в FP32, плюс ещё попросит токен с HuggingFace для скачивания, а так же нужно указать сэмплер Euler Flow Match... Касаемо инференса 40 гиговой FP32, отмечают что шустрее чем в forge в 2 раза если мощностя позволяют. Лоры пока что не работают, контролнеты тоже.
Вообще говоря о SD.Next, vladmandic напихал туда столько всего... всё что шевелится теперь уже там, а что не шевелится - vladmandic будет шевелить и двигать, он уже присоседил к своему детищу поддержку - AuraFlow 0.3, AlphaVLLM Lumina-Next-SFT, Kwai Kolors, HunyuanDiT 1.2, DeepFloyd, Stable Cascade, Segmind SegMoE XL 4x2, PixArt-Sigma, а так же там просто адовая куча различных крутилок и свистоперделок. Так же vladmandic прикрутил новые режимы Optimum Quanto и BitsAndBytes, новый сбалансированный режим разгрузки, который динамически разгружает GPU<->CPU по мере необходимости, и многое другое... А из предыдущей обновы: поддержка ControlNet-Union, DoRA, дополнительных моделей VLM и нового апскейлера AuraSR.
Я помнится где-то чуть больше года назад щупал SD.Next, ещё до того как я плотно познакомился с божественным ComfyUI, и мне прям тогда было больно после 1111автоматика, не понравилось всё - начиная от ультра перегруженного интерфейса, заканчивая.. уже не помню чем, в общем было удалено, и забыто как страшный сон. В общем я искренне не знаю кому это нужно (Не лезь бл***, дебил, сука ***ный , оно тебя сожрёт), но новость есть новость. Получите, распишитесь.
https://github.com/vladmandic/automatic
Тут ByteDance завезли Hyper лору для Flux dev
Рекомендуют юзать с силой около 0,125, guidance scale же можно оставить на уровне 3.5
Hyper-FLUX.1-dev-16steps-lora
Hyper-FLUX.1-dev-8steps-lora
В скором времени обещают завести более лоустепные лоры
Тут это, В Krea завезли Flux PRO
Есть крутилки - соотношение сторон, 25 стилей, можно делать вариации пикч.
я пощупал, и очереди конечно... я ждал свои первые 4 пикчи с котиками 5 минут.
Не бесплатно, тратятся халявные кредиты, тут в качестве валюты - минуты.
Как я понял тут не фиксированная цена на пикчи, когда очередь доходит, и пикчи начинают генерироваться, время которое они делались и вычитаются из бесплатных 3 минут.
Щас вот уже прогнал 4 генерации (16 пикч) потратилось 1.75м из 3м.
Krea кушает временную почту, значит можно абузить!
https://www.krea.ai/apps/image/flux
Первая версия IP-Adapter для FLUX.1 [dev] от XLabs
Касаемо обучения:
512х512 - 50к шагов.
1024х1024 25к шагов
Работает с обоими разрешениями.
Как щупать?:
1. - Ставим ноды от XLabs.
2. - Качаем модельку clip-vit-large-patch14, ложим её в ComfyUI/models/clip_vision/
3. - Качаем собственно модельку IPAdapter от XLabs, ложим её в ComfyUI/models/xlabs/ipadapters/
4. - Используем ноды - Flux Load IPAdapter и Apply Flux IPAdapter, выбираем нужный clip.
5. - Юзаем.
Это первая версия, поэтому может быть сырой, но ребята из XLabs обещают всё допилить по красоте. так что новые версии не за горами.
Flux schnell gguf Q4 на 1660S и 16GB DDR3 ОЗУ
4 шага = 3 минуты.
FLUX.1-schnell-gguf Q4 ложим в \unet
Обновляем комфи, ставим ComfyUI-GGUF, грузим модельку через ноду - Unet Loader (GGUF)
В целом приемлемо, 3 минуты - не 20 с лишним как 4 шага Flux schnell FP8 на том же железе
XLabs завезли ещё новых контролнетов: Canny, Depth, HED
https://github.com/XLabs-AI/x-flux-comfyui/tree/main
Файнтюн gemma-2-2b - 2B or not 2B EXL2 Q8
Занимет топ в бенчмарке UGI (Рейтинг самых нецензурных LLM) в категории моделей "~2B"
Я пощупал - в целом неплохо. Оправдывает своё 1 место в рейтинге UGI, но есть нюанс - не так хорошо могёт в русский как обычная gemma-2-2b, проскакивают английские слова, частенько по русски не может в уместное "он/она".
Но если юзать с переводчиком(4 скрин) - то прям вообще всё по красоте.
Чё там под капотом?:
1 - Они обучили AE с глубоким сжатием. AE-F32 агрессивно увеличивает коэффициент масштабирования до 32, в отличие от традиционных AE-F8. Это уменьшает количество данных для обработки и ускоряет генерацию так как выводит в 16 раз меньше латентных токенов.
2- Заменили дефолтный DiT на Linear DiT. Вычислительная сложность исходного DiT составляет O(N²), которая увеличивается квадратично при обработке изображений высокого разрешения. Они заменили все стандартные блоки внимания линейным вниманием, уменьшая вычислительную сложность с O(N²) до O(N). В то же время присоседили Mix-FFN, который интегрирует глубинную свертку 3×3 в MLP для агрегирования локальной информации токенов. и тем самым получили буст в 1.7 раз при генерации в 4к. профитом Mix-FFN является ещё и то, что как выяснилось - позиционное кодирование (NoPE) оказалось не нужным. поэтому они без зазрения совести выпилили позиционное встраивание в DiT и не обнаружили потери качества.
3 - Они отказались от богомерзкого Т5: В качестве кодировщика юзается православная Gemma. Это позволяет Sana лучше понимать и следовать промту.
4 - По обучению: Они заюзали несколько VLM для создания повторных подписей для каждого изображения, включая автоматическую маркировку изображений и так же динамически выбирали подписи с высоким clip score. их эксперименты показали, что сей подход улучшает сходимость обучения и соответствие текста изображению. Кроме того, вместо 28-50 шагов при Flow-Euler-Solver, годные пикчи можно получать при 14-20 шагах засчёт Flow-DPM-Solver
Sana-0.6B обещает быть любопытной, и как вишенка на торте - обещают выложить хитро квантованную в W8A8 модельку - (симметричное квантование INT8 для каждого токена для активации и симметричное квантование INT8 для каждого канала для весов. А чтобы сохранить высокое семантическое сходство с 16-битным вариантом при минимальных накладных расходах на время выполнения, они сохронят уровни нормализации, линейное внимание и уровни проекции ключ-значение в блоке перекрестного внимания с полной точностью.)
Тут это, на цивите из-за лага можно на халяву лутануть 225 синих бомж бузов!
https://civitai.com/claim/buzz/uh-oh
P.S
Синие бомж бузы - лутаются за просмотр рекламы, и выполнение ежедневных задачек, можно тратить на генерации пикч и обучение.
Жёлтые православные бузы - покупаются либо лутаются как вознаграждения от других юзеров, можно тратить на генерации пикч, обучение а так же в Tips, Creator Club и Bounties
ОБНОВЛЕНИЕ.
[Файлы Neurogen] 15. FaceFusion - /FaceFusion (обновлено до версии 3.0.0)
Доступно в @AINetSD_bot
ОБНОВЛЕНИЕ.
[Файлы AINetSD] 39. Object Cutter-AINetSD - /objectcutter_ainetsd
Вырезка объектов по промту/рамке
Используется модель Finegrain Box Segmenter, обученная на смеси естественных данных, собранных Finegrain, и синтетических данных, предоставленных Nfinite. Работа основана на опенсорсном микро-фреймворке Refiners для простой адаптации базовых моделей.
Не следует ожидать прям вау результатов, иногда может криво вырезать
P.s у кого проблема с скачиванием результата - загляните в комментарии к этому посту.
Доступно в @AINetSD_bot
ОБНОВЛЕНИЕ.
[Файлы AINetSD] 38. FluxGym-AINetSD - /fluxgym_ainetsd
Веб-интерфейс для обучения Лор для Flux с поддержкой обучения на 12/16/20 ГБ видеопамяти, работающий на основе Kohya Scripts
Как щупать:
1 - Запустить "Установка torch и прочего.bat" для загрузки библиотек. (да, мне было лень грузить сборку в тг с либами на несколько гигов, так что не обессудьте, грузите сами.)
2 - Скачать модели:
В models/clip:
https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/clip_l.safetensors?download=true
https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/t5xxl_fp16.safetensors?download=true
В models/vae:
https://huggingface.co/cocktailpeanut/xulf-dev/resolve/main/ae.sft?download=true
В models/unet:
https://huggingface.co/cocktailpeanut/xulf-dev/resolve/main/flux1-dev.sft?download=true
3 - Запустить "Запуск FluxGym.bat".
Назвать лору, покрутить крутилки.
Загрузить пикчи и подписать их.
Нажать "Старт".
После обучения, лора будет сохранена в outputs.
Доступно в @AINetSD_bot
#Музыкальная_пауза
Ещё чутка песенок, чисто что бы они тут были, и мне не нужно было потом их тысячу лет искать по разным чатам, что бы кому-нибудь скинуть
Пока ничего интересного не выходит, писать особо не про что.
Посему ловите #Музыкальная_пауза
Про флюкс и 6 гигов врама😊⬇️
Новые аргументы для ComfyUI --fast
Бета оптимизации, которые в будующем могут быть включены по умолчанию.
Пока что, под аргументом скрывается лишь оптимизация умножение матриц float8_e4m3fn на видеокартах RTX 40xx. Требуется последний torch.--reserve-vram
Ограничивает использование VRAM в ComfyUI. Например --reserve-vram 1.0
, заставит ComfyUI попытаться сохранить 1 ГБ свободной памяти. Полезно, если получаете OOM, в общем экспериментируйте.
Касаемо [--fast] работает с sd1.5 и flux, с SDXL есть проблемы (чёрный квадрат)
По скорости на примере RTX 4080:
flux — с --fast
100%|█████| 6/6 [00:02<00:00, 2.00it/s]
Prompt executed in 4.52 seconds
flux без --fast
100%|█████| 6/6 [00:04<00:00, 1.42it/s]
Prompt executed in 5.90 seconds
Flux schnell gguf Q4 на 1660S и 16GB DDR3 ОЗУ [2]
Тут это, City96 завёз нам T5-xxl в gguf
на том же железе если заюзать Force/Set CLIP Device на GPU из ComfyUI_ExtraModels
и модельку t5-v1_1-xxl-encoder-Q3_K_S Text Encode после загрузки отрабатывает - буквально за пару секунд.
Хотя если у вас ЦП не из мезозойской эры без инструкций AVX2, то Force/Set CLIP Device на GPU не нужен. на 6 ГБ он отжирает vram, и например 512х512 раньше делалось за 1 минуту, сейчас за 1.5 минуты
Это уже не просто приемлемо, а в целом вполне юзабельно.
Юзаем Flux онлайн без смс и регистраций, а так же треним лоры для Flux по цене трёх дошираков
Flux онлайн без смс и регистраций - https://fastflux.ai
Разрешение - 896 на 512, пикчи скачиваются в формате webp, по скорости - моментально.
Увы, но никаких крутилок нет, зато бесплатно (по качеству - пикча к посту сделана там)
Треним лоры для Flux - https://replicate.com/blog/fine-tune-flux
На Replicate завезли Ostris Lora Trainer - можно крафтить лоры для Flux , конечно же не за бесплатно, придётся обеднеть на ~220 рублей (~2.5$) конечно же всё зависит от того, что вы там понатыкаете в плане кол-во шагов и всего такого.
ОБНОВЛЕНИЕ.
[Файлы Neuroport] 1. Flux1-dev-nf4 - /Flux1_dev
Системные требования: NVIDIA GPU с не менее 16 ГБ VRAM, 32 ГБ RAM
Доступно в @AINetSD_bot