О проектах!
Не часто пишу тут про что-то связанное с моей работой, но у нас потрясающая новость!
Я буквально недавно присоединился к команде Mago и сегодня официально:
Рады объявить, что Mago привлек €1,5 млн на этапе pre-seed финансирования под руководством Atlantic Labs!
Наша цель — революционизировать творческие процессы в анимации, кино и игровой индустрии, сделав профессиональные инструменты для преобразования видео с помощью ИИ доступными для всех. Опираясь на успех WarpFusion (150+ миллионов просмотров) и удивительную работу Derp Learning, мы разрабатываем мощные инструменты, которые позволяют превращать любое видео в любой визуальный стиль с полным сохранением творческого контроля.
Представьте, что вы можете преобразовать реальную съемку в потрясающую анимацию, масляную живопись или любую эстетику, о которой только мечтаете — при этом затратив лишь малую часть времени и средств по сравнению с традиционными методами. Это только начало нашего пути по поддержке создателей по всему миру.
ПОДРОБНЕЕ ТУТ
Думаю старичкам AI генерации не нужно долго рассказывать про WarpЧитать полностью…
Runwayml: анонсирует camera controls, успевает похайповать полчаса.
Опенсорс: hold my beer
DimensionX Lora для Cogvideo. Моё увожение!
Github
Опенсоурс управление видео
Продолжаем тему с видеогенерацией.
📕 Еще на прошлой неделе на стриме попробовал:
— ComfyUI CogVideoXWrapper — для гибкого управления видео с поддержкой масок лица, контрольных точек и карт глубины.
Для работы с траекторией:
GITHUB—COMFYUI_JSON_T2V—COMFYUI_JSON_I2V
Если нет возможность использовать Kling с его motion brush, но есть видеокарта 24+ GB, то это наверное самый качественный инструмент.
🔥 Еще конечно ждем для ComfyUI:
— VEnhancer — для улучшения качества видео после генерации. Чтобы наконец-то получить адекватный HD.
Oasis: Вселенная в трансформере
🔥 Oasis — это первая в своем роде игровая модель, полностью генерируемая нейронкой в реальном времени. Она позволяет пользователям взаимодействовать с виртуальным миром, где все элементы, включая физику, правила игры и графику, создаются и управляются нейронкой.
📕 Основные особенности Oasis:
— Пользователи могут перемещаться, прыгать, подбирать предметы, разрушать блоки и выполнять другие действия, взаимодействуя с миром, созданным ИИ.
— Вся игра генерируется на основе фундаментальной модели, без использования стандартных игровых движков.
— Oasis понимает и воспроизводит такие элементы, как строительство, физика освещения, управление инвентарем и взаимодействие с объектами.
📕 Технические аспекты:
— Oasis состоит из двух частей: пространственного автоэнкодера и диффузионной модели на основе трансформеров. Автоэнкодер основан на ViT, а основная модель — на DiT.
— Модель обучалась на открытых видеоданных Minecraft, собранных OpenAI, с использованием метода Diffusion Forcing, что позволяет генерировать последовательные кадры с учетом пользовательского ввода.
— Команда Decart создала оптимизационную инфраструктуру для модели Oasis, так как стандартные методы для LLM были неэффективны для архитектуры DiT: В современных моделях текст-видео, таких как Sora, Mochi-1 и Runway, на генерацию одной секунды видео может уходить до 10–20 секунд, даже при использовании нескольких GPU. Оптимизация Decart позволило улучшить использование GPU и минимизировать задержки, масштабируя модель для многократного использования GPU и сокращая время передачи данных.
☺️ Код и веса модели Oasis доступны для локального запуска, а также есть демо:
INFO—MOREINFO—GITHUB—WEIGHTS(HF)—DEMO
🐈⬛ А вот пользовательский опыт от меня:
— Это наверное самая триповая игра в которую я играл, вещи трансформируются во время перетаскивания, как только ты выбираешь камень, который рандомно сгенерировался в инвентаре и уже мечтаешь построить каменный дом, он тут же превращается в дерево.
— Милый цветочек при выборе ставит деревянное ограждение.
— Можно легко телепортнуться просто посмотрев вниз и вновь вперед.
— Вода, сундук сразу же вызывают критическую ошибку и тебя выбивает из сервера.
🐑 Идеальный симмулятор насколько хаотична жизнь.
Основной вывод от меня:
Оптимизация видео моделей невероятно развивается и скоро мы получим много опенсоурс моделек, которые смогут генерить 20+ кадров в реалтайме, еще и триповых игр. Еще больше мемов и абстрактных видео + игр. Но если мне нужно будет сделать что-то точное, что требует сохранение структуры A и положения B, я пойду делать это стандартным способ. (Blender, After Effects, Unreal Engine и так далее + предыдущее поколение уже хорошо контролируемых нейронок)
Бу, это тест нового инструмента Editor в веб-версии #Midjourney, который наконец-то позволяет:
а)расширять или инпейтить загруженные изображения
б)переделывать их, сохраняя контуры (по сути ControlNet с Depth). Картинки с котом посвящены этому пункту, как самом интересному.
Вроде все это уже давно есть в других инструментах, но тут MJ наваливает своего традиционное КАЧЕСТ-ВО 👍. Ну и работает со всеми старыми настройками и приемчиками, что обеспечивает некоторую гибкость (тут закадровый смех фанатов Stable/Flux).
Потестить пока только можно если у вас от 10к генераций (которых у меня оказалось больше).
FLUX PRO 1.1 on GLIF
📕 Многие уже писали [ LINK1 LINK2 LINK3 ] про Blueberry, который на данный момент бьет все бенчмарки по качеству картинок. (А если вы в ComfyUI все новшества поставите на Dev, ойойой, жаль такой версии нет в бенчмарках...)
🔥 Можно потестить 20 генераций в день на глифе, или пойти сделать свой глиф, подцепить туда Claude для аугментации промпта и получить Flux 1.1 на стеройдах — angrypenguin/glifs/cm1to7ws0000gnlxccqgp1gt0">LINK (Если из РФ, требуется VPN для регистрации иначе будет waitlist окно)
А я пока в этом месяце минимум по постам, кстати, почистил канал от ботов, и это была трудная задачка. (- 100 ботов и людей, кто не заходил последний месяц в тг)
Вывод: Телега сама удаляет неактивные каналы и боты.
CogView3 & CogView-3Plus
В целом осень выдалась урожайной, в основном благодаря ECCV & SIGGRAPH ASIA
Вот и китайцы выкатили очередную итерацию CogView text2image
Если верить авторам, бьет SDXL во все поля (пора все-таки уже с FLUX сравнивать, сдохле второй год пошел)
paper
code
@derplearning
Дайджест за неделю по нейронкам
🐈⬛ Animatediff Unsampling — новый вариант застабилить мерцание на генерация. При всех крутых возможностях RunwayML. Animatediff для меня пока остается самым артовым инструментом с возможностью сильного управления генерации. В превью пример генерации.
LINK — LESSON
🔝 Img2video CogXvideo — CogXVideo опенсоурсный аналог Dream Machine, KlingAI и Gen3. Теперь доступен и в варианте Img2Video. Умельцы уже смогли сделать возможность генерировать разные размеры. Но по качеству чекпоинт Fun 5B делает намного интереснее генерации, чем стандартный чекпоинт.
LINK — Fun5B_example — ComfyUI-JSON-Fun5B — Fun5B-WEIGHTS — CogXVideo10GBPipeline — EXAMPLE
🥰 Tripo AI — новый шаг в 3d генерациях. Качество генераций не уровня продакшена, но отлично сойдёт для 3d печати. Дают 600 кредитов, генерация стоит 25 при условии, что вывод в glb формате, для других придётся отдать ещё 10 кредитов. Качество на домах и персонажах невероятное! Сцены по одной картинке таким способ генерить не получится :/
В примерах есть вариант 3D печати сразу после Tripo, картинка генерировалась во Flux.
LINK — 3D-PRINT
📕 Настройка блоков трансформера во FLUX. Матео в своим последнем ролике(Attention Seeker часть
) показал новые ноды для работы с блоками. Коротко — пока нет явных зависимостей, но если их понять — то управлять генерациями станет еще проще!
EXAMPLE 1 — EXAMPLE 2
👀 Kling AI. Клинг обновился до версии 1.5 и добавил новых инструментов: Motion Brush — создание масок для нужных предметов и выбор их движения. Правда в версии 1.5 новые инструменты не доступны, как и возможность ставить первый и второй кадр. Возможно только генерировать в text2img и img2img, да еще и за минимум 35 кредитов(Так как доступен только проф вариант для 1.5)
и только в платной версии…
KLINGAI
☺️ Gen3 новинки — вертикальные видео.
RUNWAYML
📕 Три очень качественных каналах на английском по ComfyUI:
— Серия уроков по ComfyUI: LINK
— latentvision" rel="nofollow">https://www.youtube.com/@latentvision
— sebastiankamph" rel="nofollow">https://www.youtube.com/@sebastiankamph
p.s. Пилю для вас дайджесты в 30-ти летний юбилей
Как определить AI генерацию
📕 Недавно в сообществе Reddit по Блендеру, появилась невероятная работа. И многие стали выгонять автора из треда за использование видеонейронок вместо Блендера. ⚠️
😳 Автор работы, Александр, был вынужден предоставить скриншоты, чтобы доказать, что его работа полностью создана в Blender.
Если вы хотите научиться отличать нейронные генерации от классического 3D-арта или видеоряда, обратите внимание на следующие признаки:
🔍 Ткани и движущиеся линии — Смотрите на ткани, движущие линии, например, на траву как в видео. Если визуальные линии создающие объекты прерываются или перетекают друг в друга, то работа явно сгенерирована.
🔍 Анатомия — Наблюдаем за руками, ногами, другими частями тела, особенно если они двигаются часто. Именно в частых, быстрых генерациях любая видеонейронка теряется. Ноги превращают из правой в левую, пальцы меняют порядок или сращиваются.
🔍 Частички — небольшие частички мусора, конфетти или других вещей будут морфиться, растягиваться и видоизменяться.
🔍 Освещение и тени — Обратите внимание на тени и световые эффекты. Они могут иметь неверные углы или неправильную интенсивность.
💀 Различение AI-генерации и стандартного 3D-контента имеет ключевое значение для понимания производственных возможностей и ограничений каждого подхода. Традиционный 3D-продакшн предоставляет высокий уровень контроля, точности и реализма, что особенно важно для сложных и уникальных проектов. В то же время, AI-генерация предлагает быструю и экономичную альтернативу, подходящую для массового производства контента с меньшими требованиями к детализации.
Работа офигенная! АВТОР
COMFYUI FLUX SVG
📕 Нода для ComfyUI с Лорой, которая позволяет делать SVG генерации.
COMFYUI custom node—LORA SVG
✔️ Отлично подойдет:
— Если вам нужна маленькая иконка
— Не важны детали
— Нужен самый быстрый способ получения SVG
❌ Не подойдет:
— Если вы будете использовать плоттер для рисования или проф инструмент, беда со слоями и качеством линий
— Если вы хотите делать анимацию или игры
🐈⬛ Json для ComfyUI в комментах
@monkeyinlaw
RunwayML тизерят новую модельку, анонс завтра в 17:00 CET
В тизере ничего особо интересного не показали, кроме шикарных картинок, но думаю, релиз будет любопытный.
Теперь ждем презентации свежих видеомоделей, как новенький айфон.😋
@ai_newz
Я уже писал об интерполяции во FLUX и делал рандомную прогулку по латенту
📕 Вчера выложили вариант для ComfyUI, где мы берем контекстное окно от нод AnimateDiff и прикрепляем к FLUX. Это круто тем, что мы можем использовать и ControlNet и свои Лоры для интерполяции.
🐈⬛ Не круто, что Flux требовательный к памяти и батч из 256 картинок я смог просунуть в gguf Q3 версии с размером 960x540px, и это при карте H100 в 96GB... Это причина почему AnimateDiff для Flux если и появится, то станет возможным при кластерах H100...
🧐 Всегда мечтал о функционале ComfyUI с качеством Midjourney
Json в комментах, иная версия с котом тоже.
T2V model CogVideoX-5B
🔥 Выложили веса для CogVideoX-5B — опенсорсный text2video, и уже есть готовые ноды для инференса в ComfyUI, даже с возможностью Vid2Vid.
📕 Для ComfyUI можно использовать T5 энкодер, который для Flux и SD3. А еще ест 13-14GB в пике, но только VAE. Сэмплинг кушает только 5-6GB.
COMFYUI—HF_WEIGHTS—GITHUB
Более качественные Union ControlNET для FLUX
и небольшой дайджест за день
📕 Вышли более качественные union controlnet от InstantX Team и Shakker Labs. В комментах показываю какие-то безумные манипуляции с pose моделью и Animatediff, интересно узнать подробности.
HF link
📕 Так же от них вышел depth map ControlNet.
🔥 Региональный маски с промптами в Photoshop с сервером на ComfyUI.
Reddit—Github
👀 Интересная статья про T5 энкодер во Flux и насколько он отличается от привычного нам Clip.
🐈⬛ Тренировка Лоры на ваших логотипах. Автор использовал данный пайплайн для обучения Лоры и меньше 15 картинок с логотипом своим.
@monkeyinlaw
Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.
Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.
Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍
С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁
* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.
@ai_newz
Во Flux, недавно вышел аналог Ipadpater, только он Redux.
Не открывайте перед сном
Тренировка Лор для Клинг!
На своих (чужих, нужных) лицах.
Да, в Клинге появляются Лоры - они их зовут "AI Custom model"
Для тренировки своей модели:
Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.
Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.
Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.
Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.
И все, Клингонская Лора в действии!
Поглядите примеры. Этот ж новый нормальный кастинг.
Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.
@cgevent
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
comfyui mochiedit
comfyui mochiwrapper
@derplearning
Нови-Сад
📕 Это бруталистические государственные здания в сочетании с известными нами панельками, которые невероятно контрастируют с оборонительными крепостями и историческим центром времен Австро-Венгерской империи.
🧐 Для меня это место, которое я часто представлял себе, как город мечты.
🐈⬛ Я рад, что есть возможно показать его таким, как я его вижу в своем воображении. Пока не так детально, но как концепт очень хорошо выходит.
📕 Workflow: Midjourney Editor для реальных фото + RunwayML Gen3 turbo для оживления статики
Заставка Улицы разбитых фонарей, но это Улица Сезам.
Сделал довольно проклятое, прогнав золотую классику через video-to-video #gen3. Специально не занимался черрипикингом, потому что галлюцинации здесь прекрасны. Не о чем не жалею.
Берем производную от мемов.
Отдельного поста заслуживает совершенно мемная фича в новой ПИКЕ 1.5 по названием "раздави(сомни в труху) это"
Мемная, потому что эффект как бы один и быстро взлетит и быстро надоест.
Зато можно брать мемы и мемно над ними издеваться. И не только над мемами.
Знаете какой тут сложный промт, инфоцыгане?
Image to video prompt: 'Squish it'
@cgevent
https://huggingface.co/glif/how2draw
крайне любопытная lora how2draw
Ценность опенсурса в возможности FT. На апи и подписках зарабатывают и окупают модели еденицы, а ценность которую можно утащить из опенсурса велика - хороший пример это SD комьюнити которое стало автономно от моделей и создало столько инфраструктуры что можно конкурировать с MJ(особенно если знаешь что нужно)
Вчера на стриме потестил vid2vid
И конечно не все так радужно, как пишут и показывают.
В примерах я использовал быстрые 3d генерации по картинке и затем собирал сцену в Blender. Пока генерации были с обычными ракурсами камеры и движениями, все были идеально. А как только я выбрал более экзотические ракурсы и движения камерой, генерация поплыла. Даже при силе 0.1, где практически должна быть моя исходная генерация - цвета и движения были ужасными. Как и всегда, магии нет, чего нет в датасете, того не будет при генерации.
🧑🎓 Первая генерация - простая сцена в Блендер с 3d болванками
🧑🎓 Вторая генерация - лучшее что смог собрать в vid2vid runwayml
🧑🎓Третий ролик - исходник, генерация с силой 0.7, и генерация с силой 0.1 (чем меньше, тем больше похоже на оригинал входного видео)
Запись стрима: LINK
FLUX LORA PERSON
📕 Сделал новый урок про обучение Лоры на персонажах. В видео два способа обучения и инференса(бесплатный на Tost.AI и на Runpod), оба варианта обучения используют AI Toolkit.
📕 Основное различие в конфигах, их можно найти на бесплатном патреоне:
— Стандартный — позволяет обучить лору на персонажах с хорошей схожестью
— Обучение двух слоев и четырех слоев только — скорость инференса увеличивается, размер лоры в размере 6-8 мб, концепты проще соединяются с нашим персонажем, но есть небольшая потеря в схожести и качестве.
🔄 Отдельно конечно мне понравилось делать обложки между главами. Они как раз в превью.
PATREON LINK — YOUTUBE LINK
И еще новости:
📕 Сравнение ControlNet для FLUX.
LINK
Вывод: Лучше всего себя показывают
🔥 MistoLine для линий и Depth из UnionPro для глубины
📕 Подробное и качественное сравнение скорости генерации на разных семплерах.
LINK
Что самое сильно, тесты делали на RTX2060 SUPER 8GB VRAM. 8gb + и 55 секунд на генерацию, это конечно приятная новость для всех у кого слабые GPU.
🔥 Тренировка концепт слайдеров теперь доступна и для Flux! Концепт слайдеры позволяют значением веса менять эмоции, возраст или другой предобученный параметр в генерациях Ждем в ComfyUI
LINK — NOTEBOOK
🔄 Обратил внимание на тестах, что многие художники из SDXL прекрасно генерятся и во FLUX, большие базы данных по художникам для SDXL:
LINK 1 | LINK 2
Небольшой дайджест за день.
Картинки в превью выстроены по порядку новостей.
📕 Новый CLIP-L текстовый энкодер для генерации текста во FLUX. Работает действительно лучше даже для больших и сложных предложений. Но генерит текст все еще только на английском.
HF LINK
🐑 CogVideoX Vid2Vid. Новое приятное UI для text2IMG и VID2VID
GITHUB | Вариант для ComfyUI | Для Runpod ComfyUI
☺️ Красивая Лора для модерн 3D.
CIVITAI
📕 COMFYUI Live Portrait. Обновленный Live Portrait, где вы можете анимировать лицо параметрами. Параметров очень много, для любителей тонкой настройки.
ОБУЧАЛКА(для VideoInput)
— LINK
⚠️ Калифорнийский закон о регуляции нейронок SB 1047
Если законопроект будет принят, он может иметь далеко идущие последствия. Законопроект может сделать незаконными практически все существующие модели Stable Diffusion/FLUX, Fine-Tune и LoRA в Калифорнии. Популярные сайты хостинга моделей ИИ, такие как CivitAI и HuggingFace, могут быть вынуждены либо фильтровать контент для жителей Калифорнии, либо полностью блокировать доступ. Это может серьезно ограничить доступ к инструментам генерации изображений ИИ для калифорнийцев и потенциально вытеснить разработку ИИ из штата. Однако существуют потенциальные обходные пути, такие как использование VPN или создание снимков экрана для удаления метаданных, что подчеркивает потенциальные проблемы правоприменения, с которыми может столкнуться законопроект.
REDDIT LINK
300 шагов на изображение. Если у вас есть 8 изображений лиц, то получится два изображения по 1024 пикселя, поэтому общее количество шагов составит 600, нет необходимости масштабировать скорость обучения.
FLUX тренировка Lora на персонажах
🍎 TheLastBen показал свои наработки для обучения Лоры на персонаже.
LINK
📕 Он заметил что два слоя(single_transformer_blocks.7.proj_out and single_transformer_blocks.20.proj_out
) при обучении сильнее всего влияют на персонажа, потому если обучить только эти слои и не трогать остальное, выйдет супер удачная Лора на персонаже.
LORA — для тестов.
📕 Добавим сюда еще новое понимание от коммьюнити, что детальное описание вещей переобучает и остальную часть датасета в кашу. То есть нужно описывать словами только те концепции, которые не присутствовали в датасете Flux. При переобучении на больших кэпшионингах можно потерять большую часть остального контента и многие для этого докидывали регуляризационные картинки. Получается можно было просто меньше кэпшионить? (Вот бы мне все эти знания год назад...)
📕 Тут же еще появилась нода от Kijai, которая позволяет вытаскивать на слои вашу обученную лору и смотреть как слой влияет на генерацию (пример в последней картинке
)
🔥 Обучение по определенным слоям доступно в AiToolkit. Любителям Kohya-SS пока нужно подождать.
🐈⬛ Пойду перезапишу весь новый урок про тренировку Лора для Flux.
@monkeyinlaw
Небольшой дайджест за день по FLUX
🔥 Flux подборка присутствия в датасете художников.
📕 Flux LORA база данных Текстуры | Стили
Картинки — мои примеры генераций с супер детальным пайпалйном с двойной инъекции шума в латент от Маттео. Json в комментах. Он адаптирован под капшионинг через Florence2.Читать полностью…
Небольшой дайджест за день
😳 Генерация 3d сцены из сплатов через две картинки:
— Картинка генерится в Flux (MonkeyInLaw/glifs/clzt8y9fz000d9vtt7fuhdmp9">тут 20 бесплатных генераций есть)
— Далее в Gen3 Turbo с промптом: Orbit Right
— Берем крайний кадр лучший с другой стороны сцены
— И в HF space для создания сплатов
Reddit LINK
Это пока быстрый промежуточный вариант, думаю совсем скоро можно будет полноценные 3D сцены делать с таким пайплайном. В отличие от генерации фигурок, 3D полноценные сцены — слабая сторона генеративных нейронок.
При этом Union ControlNET требует guidance 1 в нодах ComfyUI, а стандартные ControlNET для Flux могут работать при любом guidance. Пока конечно дикий разлад в настройках...
Примечание: Во втором варианте при обучении были разные параметры, что сильно влияет сравнение. И оба варианта обучались прям на CivitAI
UI обертки для Opensource нейронок в одном UI
😳 Есть уже несколько вариантов удобных оберток для закачки известных инструментов, но данная версия намного приятнее по дизайну.
Вот что автора пишет про свою версию в сравнение с Pinokio:
«Ты ничего не добьешься с этим проектом». Он уже наткнулся на два проекта, похожих на мой, и отправил мне ссылки на Pinokio и StabilityMatrix.
Да, вы оба правы — существуют другие приложения, которые могут показаться похожими на мое. Однако у меня есть большие планы на мое приложение, которые сделают его уникальным и выделяющимся по-своему.
Возьмем, к примеру, Automatic1111. Когда он только появился, стоило ли всем отказаться от создания других веб-интерфейсов только потому, что один уже существует? Уверен, вы знаете о многих веб-интерфейсах, похожих на A1, но имеющих своих пользователей и уникальные особенности. Некоторые из них даже стали более популярными и лучше поддерживаемыми.
ЛИНК
FLUX интерполяция по рандом латентному пространству
📕 Что мне нравится в этом блуждании, так это его абсолютная непредсказуемость. Мы переходим от одного вектора к другому, причем длина и направление этих переходов задаются случайным шумом. В итоге получается нечто похожее на сон или беспорядочный набор кадров, плавно переходящих из одного сюжета в другой.
Если хотите попробовать, вот(требует много VRAM)
:
GITHUB—COLAB
Пример для SD 1.5 кода от Karpathy
Музыка из Suno