monkeyinlaw | Unsorted

Telegram-канал monkeyinlaw - Нейросети и Блендер

12225

Дизайн и искусство в Blender и в AI https://linktr.ee/monkeyinlaw

Subscribe to a channel

Нейросети и Блендер

Внимание! Если вы использовали ноду ComfyUI_LLMVISION от u/AppleBotzz, вас взломали

Попался на реддите пост и дальше решил вам перевести его, возможно кто-то устанавливал эту ноду, перевод:

Если вы установили и использовали этот узел, ваши пароли браузера, данные кредитных карт и история просмотров были отправлены на сервер Discord через вебхук. Лично я пострадал от этого. Примерно через неделю после установки я получил кучу уведомлений о подозрительных входах в различные сервисы. Вот как это проверить:

Как проверить:

1. В custom node указаны кастомные библиотеки для OpenAI и Anthropic в requirements.txt. Внутри этих библиотек находится вредоносный код. Скачайте библиотеки и разархивируйте, чтобы увидеть содержимое.
2. Если у вас установлена библиотека с версией 1.16.2:
- На самом деле устанавливается версия 1.16.3, которая не существует.
- Внутри пакета находится файл /lib/browser/admin.py, который читает данные вашего браузера и сохраняет их в директорию temp.
- В файле содержится зашифрованная строка, указывающая на вебхук Discord: https://discord.com/api/webhooks/1226397926067273850/8DRvc59pUs0E0SuVGJXJUJSwD_iEjQUhq-G1iFoe6DjDv6Y3WiQJMQONetAokJD2nwym.
3. Если у вас установлена версия 1.30.2:
- Внутри находится файл openai/_OAI.py с двумя зашифрованными строками, указывающими на вебхуки Discord и вредоносный файл VISION-D.exe.

Как узнать, были ли вы взломаны:

1. Проверьте C:\Users\YourUser\AppData\Local\Temp. Ищите каталоги с форматом pre_XXXX_suf. Если там есть C.txt и F.txt, ваши данные были скомпрометированы.
2. Проверьте python_embedded\site-packages на наличие следующих пакетов:
- openai-1.16.3.dist-info
- anthropic-0.21.4.dist-info
- openai-1.30.2.dist-info
- anthropic-0.26.1.dist-info
3. Проверьте реестр Windows под HKEY_CURRENT_USER\Software\OpenAICLI. Если там есть FunctionRun со значением 1, ваши данные скомпрометированы.

Как очистить систему:

1. Удалите указанные выше пакеты.
2. Найдите и удалите следующие файлы:
- lib/browser/admin.py
- Cadmino.py
- Fadmino.py
- VISION-D.exe
3. Проверьте реестр Windows и удалите упомянутый ключ.
4. Запустите антивирусную проверку.
5. Измените все свои пароли.
6. Человек, сделавший это, поступил преднамеренно.


А еще напомню, любой .ckpt файл так же может содержать исполняемый код, в отличие от формата .safetensors

Всегда запускаю ComfyUI на Colab и Runpod серверах, потому такие виды атаки не влияют на мои данные. А вот год назад у меня просто украли физически карту, от такие атак я незащищен, пока клонов не наделал своих.

Читать полностью…

Нейросети и Блендер

🪩 Диффузионки позволяют ремастерить игры при помощи текстовых промптов.

Nvidia показала пайплайн ремастеринга текстур в популярном графично-нодовом интерфейсе ComfyAI.

Теперь можно не только апскейлить текстуры с определением свойств материалов для трассировки лучей, но и контролировать стиль при помощи промптов. RTX Remix — инструмент для ремастеринга классических игр с использованием технологий трассировки лучей и DLSS 3.5. И интеграция RTX Remix Toolkit с ComfyUI выглядит обещающей, позволяя модерам задавать стиль текстур с помощью текстовых промптов. Это ускоряет процесс моддинга и упрощает создание качественных текстур.

Теперь маленькие команды модеров могут быстро создавать текстуры высокого разрешения с физически корректными свойствами, освобождая время для доработки ключевых элементов.

А пока ждем обещанный Half-Life 2 RTX. Ну и я лично мечтал бы увидеть Half-Life Alyx с RTX в VR.

Читать полностью…

Нейросети и Блендер

🍎 Очень качественная работа с использованием AnimateDiff и ControlNet, IPAdapter и After Effects для масок.

IPAdapter в сочетание с несколькими ControlNet отлично переносит текстуру с объекта на руку.

COMFYUI pipeline от авторов

🎥 Авторы: @aleksejlotkov & @thesibilev

Читать полностью…

Нейросети и Блендер

im-a-good-gpt2-chatbot появился в сравнительной части chat.lmsys.org

chat.lmsys.org — сейчас арена для теста лучших LLM, и арт вроде должен быть далеко от этого. Но я недавно узнал у Сиолошной про im-a-good-gpt2-chatbot, говорят это проделки OpenAI.

В общем я решил использовать старые промпты для P5JS (Помните был такой Генарт? Когда с помощью кода создают красоту)
И im-a-good-gpt2-chatbot показал невероятное понимание как создать, анимировать и даже визуализировать объекты. В моем случае я попросил создать симуляцию столкновения двух нейтронных звезд и примерно рассчитать масштаб черной дыры и визуально показать ее. Очень хорошо видеть в сравнение со второй рандомной(Qwen и gemini-1.5-pro-api-0409-preview) моделью, как im-a-good-gpt2-chatbot превосходит другие модели и выдает рабочий, сложный код.

Пока я прошу перевести код в Blender API(что он тоже прекрасно делает) поглядите на симуляцию столкновения двух нейтронных звезд одинакового размера.

А Денис успел раньше игру запилить.

P.S. Модель хорошо сгенерировала svg вариант текстового сторис для инсты и даже запилила полноценный код с использования controlnet и кастомных моделей в diffusers. Это очень мощно.

Читать полностью…

Нейросети и Блендер

Improving microbial phylogeny with citizen science within a mass-market video game

Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅

Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.

В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.


Пейпер

Читать полностью…

Нейросети и Блендер

Face to All

Интересное решение на SDXL и InstantID, которое позволяет быстро трансформировать ваше лицо в разный стили при помощи Lora. В моих вариантах только стиль старых 3D консолей.

☺️ Можно сразу поиграться вот тут — DEMO

А если хочется потестить локально, то вот:

GITHUBCOMFYUI

🐈‍⬛ Единственный минус InstantID, что он не поддерживает картинки в которых лиц нет, например кадры из мультов.

Поэтому я собрал два пайплайна, со своими настройками, оба для ComfyUI:
— InstantID, который соблюдает все настройки, как в DEMO
— Кастом адаптацию через IPAdapter (И уже можно будет спокойно кидать кадры из мультов и картинки без лиц)
Json в комментах.

В оба варианта закинул Лору со стилем PlayStation 1, очень понравился этот стиль.
Хорошо работает при базовой версии SDXL.

P.S. Еще в колабе можно потестить на L4, новой GPU, которая по словам NVIDIA работает в 2.5 раза быстрее T4. Сравнение они брали на генерации картинки в SD v2.1 512x512 FP16, TensorRT 8.5.2. Еще и в неё(L4) по памяти больше картинки влазят.

🐱 Забавно видеть официальные метрики NVIDIA, которые тестят на Stable Diffusion.

Читать полностью…

Нейросети и Блендер

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Недавно парни из группы Photogrammetry and Remote Sensing (PRS) ETH Zürich выпустили модельку Marigold-LCM для вычисления карты глубины по одному изображению.

Тут используют Latent Consistency Model дистилляцию чтобы осуществлять семплинг карты глубины в ОДИН шаг, вместо обычных 10-50. Благодаря этому, теперь можно обрабатывать видео, что показано в тизере. Это еще один пример того, как ускоряют диффузию с помощью дистилляции (был пост про дистилляцию SD3), только тут вместо фоток генерируются depth map.

Идея
Первая модель Marigold вышла несколько месяцев назад и по сути являлась демонстрацией довольно простой идеи, которую описал мне соавтор статьи, Антон: если современные text-to-image модели способны выдавать фотореалистичные изображения, то они выучили довольно мощный generative prior, который знает проективную геометрию и как выглядят сцены из нашего реального мира. Ну а также из паралелльных миров, включая мемасы, комиксы, и прочую дичь которой занимаются в ComfyUI. А значит, можно брать свежую t2img модель с открытыми весами, минимально допиливать ее на уровне архитектуры чтобы не сильно отойти от натрененных весов, и файнтюнить ее при помощи небольшого набора данных на (почти) любой негенеративный таск. Вычисление карт глубины это как раз такая задача (ее новая, но все еще актуальная), и на ней довольно просто обкатать идею и измерить прогресс.

Что с результатами?
На деле у ребят получился мощный monocular depth estimation, которым вынесли MIDAS и прочие регрессионные U-Net решения, до сих пор используемые в Гугле, Диснее, и других уважаемых компаниях. Его отличительная особенность в том, что модель файнтюнится на синтетических рендерах комнат из датасета HyperSim, а на практике работает на любых сценах. И все благодаря мощному генеративному прайору Stable Diffusion 2, который являлся отправной точкой для файнтюна модели.

Демо (LCM, быстрое)
Демо (DDIM, качественное)
Сайт
Статья
Код

@ai_newz

Читать полностью…

Нейросети и Блендер

давненько не брал я в руки сплатов)
а если честно то особо и не погружался в эту тему глубоко. чтобы исправить это недоразумение, вашему вниманию:

внезапный обзор на бесплатные гауссиановы сплаты

Scaniverse
приложение для iOS, обучается быстро, заметно нагревает айфон, на экранчике выглядит красиво но для продакшна не годится

LumaAI
в представлении не нуждается, работает с телефонов и в браузере, выдает стабильно хороший результат, заложены всякие полезные плюшки

Jawset Postshot
работает локально, любит железо помощнее, обучается небыстро, зато красивый результат.
демо видео

а еще при установке Postshot спрашивает, не хотите ли плагин для афтера чтобы крутить свои сплаты как взрослый) лично не тестировал, но по секрету скажу что в скором времени нас ожидает гораздо более фаршированный плагин 3DGS для афтера, не переключайтесь

безобразие что до сих пор нет нормального импорта сплатов в блендер! есть плагин для рендера на сайклс но камон, это не реалтайм

а если хотите реалтайм - вот вам ассет для Touchdesinger. если чуть поиграться, можно добиться эффектов как на видео

@тоже_моушн

Читать полностью…

Нейросети и Блендер

🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 60-70 FPS на шлеме Oculus.

Сайт проекта

@ai_newz

Читать полностью…

Нейросети и Блендер

AnyV2V - инновационная пайплайн для редактирования видео, позволяющий использовать готовые модели для изменения первого кадра и генерации последующих кадров с сохранением согласованности с исходным видео.

Это упрощает редактирование видео до двух этапов:
— модификацию первого кадра с помощью моделей типа InstructPix2Pix, InstantID
— генерацию видео через I2VGen-XL для инверсии DDIM и инъекции признаков.

AnyV2V расширяет возможности редактирования за счёт поддержки новых задач, включая передачу стиля и редактирование, ориентированное на объект, превосходя традиционные методы по выравниванию подсказок и предпочтениям пользователей.

INFOPAPERGITHUB(код есть и рабочий)—DEMO(Replicate)

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml
group_config.json


InstructPIX2PIX занимает больше всего времени, в стандарте 16 кадров всего из оригинального видео.

Буду следить когда добавят в ноду для ComfyUI.

Читать полностью…

Нейросети и Блендер

Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz

Читать полностью…

Нейросети и Блендер

ELLA: Equip Diffusion Models with LLM for
Enhanced Semantic Alignment


Идея:
- CLIP как эмбедер не очень, давайте добавим в исходных Unet от sd1.5/xl слои которые будем обучать на эмбедингах из LLM, тем самым мы не потратим миллион денег на компьют, но начнем рисовать текст, понимать промпты и генерировать как большая модель.

site
code(выйдет попозже погулять)

Читать полностью…

Нейросети и Блендер

🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz

Читать полностью…

Нейросети и Блендер

Opensource решения для достижения качества SORA

Banodoco — опенсорс сообщество, которое много раз меня вдохновляло на новые идеи в создании анимаций через AnimateDiff и Stable Diffusion Video. Недавно они написали в дискорде по поводу развития опенсоурс видеонейронок:

SORA невероятно впечатляет, но контроль является самым важным аспектом для создания великого искусства, и благодаря работе сообщества, AnimateDiff сейчас значительно превосходит по точности управления движениями.

Чтобы дальше улучшить управление в AnimateDiff и помочь в раскрытии силы/ценности художественного контроля, мы можем сделать следующее:

№1: Удвоить наше преимущество в управлении, создав открытую армию Motion LORAs.

№2: Использовать весь наш контроль, чтобы создавать удивительное работы по всему миру.

Это краткое изложение основных моментов предложения по улучшению контроля в AnimateDiff и поощрению художественного контроля с использованием нейронок и открытых источников.


И действительно армия Лор уже начинает формироваться, вот некоторые из них:

Bubbling Rings
ANTs
Drone Orbit

Обучалка на английском как добавить Motion Lora в A1111 (с зумерским монтажом) Тут
Большая обучалка-стрим на английском про AnimateDiff в ComfyUI — Тут

От меня размышления: SORA ролики действительно впечатляют, только это черный ящик, судя по Dalle, где мы получаем невероятное понимание текста и при этом невероятные блоки на реализм, своих персонажей и качества выше 1024px, SORA будет такой же. Еще по GPU ресурсам: Не понятно сколько кластеров H100 используются для создания одного полминутного ролика.
Opensource варианты уже сейчас позволяют создавать 8к реалистичные картинки (да, это потребует опыта, кастомных решений и чуть больше прайса, чем одна картинка в Dalle).
Теперь мы приближаемся к видео генерациям, где у нас под контролем будут все параметры, при этом весь пайплайн будет собираться на локальных 3090 или T4 в аренде.

Читать полностью…

Нейросети и Блендер

🔥Stable Diffusion 3 на подходе!

Stability.ai наконец публично анонсировали, то о чем я говорил в этом посте.

Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.

- За счет этого модель умеет круто генерить текст.

- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.

- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно линейные траектории между шумом и реальными картинками.

@ai_newz

Читать полностью…

Нейросети и Блендер

Вышло интересное видео и одновременно призыв к R&D от создателя IPAdapter, в нем он показывает про влияние картинки на слои UNET, и затем тестирует влияние текста на слои UNET.

Все это нужно для улучшения контроля над изображением, в видео показано как получить качественней картинку или разнообразней вариант.

Сейчас он предлагает помочь ему с нахождением зависимостей слоев с объектами, цветами и остальным. Что в будущем поможет создать новую ноду для более эффективного и целеноправленного промптинга.

CUSTOM_COMFYUI_NODE(для тестов)—VIDEO

Это ресерч для SDXL, к которому кстати недавно вышли новые качественно обученные ControlNET. В предыдущих версиях были глобальные проблемы с моделями из-за иной архитектуры SDXL в отличие от SD1.5.


P.S.
Про выход китайского аналога SORA — KLING
* для генерации нужен китайский номер или друг из Китая
* похоже на 5-секундное контекстное окно, которое можно склеить, но по превью похоже сцену так легко не сменить, ее можно лишь слегка изменить с новым стилем.
* промптинг на китайском, каааайф
* не опенсорс

В общем пока не потестируем, говорить много не будем.

Читать полностью…

Нейросети и Блендер

OpenAI начали тренировать свою следующую по уровню модель – GPT5 они пока ее не называют, но официально подтвердили что тренят:

OpenAI has recently begun training its next frontier model and we anticipate the resulting systems to bring us to the next level of capabilities on our path to AGI


Через полгода будет у нас что-то по уровню на голову выше текущих моделей 🤌

Читать полностью…

Нейросети и Блендер

Переносим ComfyUI в телеграм бота

Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты im-a-good-gpt2-chatbot:

Благодаря im-a-good-gpt2-chatbot понял как запихнуть ComfyUI, Gradio или Automatic внутрь бота, и работать прям из Телеграм с телефона.

🐈‍⬛ Из плохих вещей:
— Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности

🐈‍⬛ Из неожиданных плюсов:
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.

Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab. Нужно только заменить API ключ бота ТГ и подставить ссылку публичную, которую выдаст ComfyUI, Automatic или Gradio.

☺️ Мне почему-то возможность менять ноды в ComfyUI сидя в лесу невероятно нравится. Еще немного лет и может с новым gpt адаптирую Блендер под Тг бота.

Читать полностью…

Нейросети и Блендер

Вышел Steerable Motion 1.4

Steerable Motion - это продвинутая интерполяцию между вашими входными картинками.
Теперь более управляемый, детальный и плавный!

🥳 Если вы любили интерполяцию с GAN архитектурой, то теперь эти перетекания доступны с вашими входными картинками в том порядке, в котором вы сами хотите. Да ещё и в качестве от HD до 4K в зависимости от мощности GPU.

💎 Так же поддерживает неограниченное количество картинок на вход для интерполяции. При этом при 100 картинках максимум будет использоваться 12.5 GB видеопамяти.

Инструмент создаётся усилиями opensource коммьюнити AnimateDiff и Banodoco.
🔤Тут прям вайбы Vqgan+clip коммьюнити и Deforum🔤

Доступен в ComfyUI
И в opensource инструменте для AI анимации Dough

Читать полностью…

Нейросети и Блендер

Adobe показал грядущие обновления в Premiere Pro

Что самого прорывного обещают добавить в Premiere Pro:

— Генеративное расширение
— Добавление объектов видео
— Удаление объектов из видео

— Звук: автоматическую фильтрацию и запикивание текстов (youtube монетизация привет), транскрибацию, разметку звуков на музыку, текст, эффекты и много другое


И самое интересное тут в секции сторонние плагины в генеративном расширение видео. Adobe предлагает text2video сразу трех сторонних компаний внутри Premiere Pro:

Pika
Runway
иии OpenAI, получается заанонсили Sora в Premiere Pro!

АНОНС

Читать полностью…

Нейросети и Блендер

Stable Audio 2 - генерация коммерческой музыки по промпту

Самое интересное в модели - это то что её тренировали только на лицензированных данных, так что новому CEO Stability AI будет поспокойнее.

Архитектурно это, как и Sora с SD3, Diffusion Transformer, похоже U-Net всё же отправляется на покой.

Моделька доступна на сайте, API, как и пейпер обещают позже. Весов нет и вряд-ли будут.

А ещё они запустили стрим с непрерывной генерацией музыки, lofi girl напряглась.

Сайт (бесплатно дают 10 генераций с новой моделькой в месяц)
Блогпост
Стрим с вечной музыкой

@ai_newz

Читать полностью…

Нейросети и Блендер

Microsoft планирует построить для OpenAI суперкомпьютер за $100 миллиардов (!). Называется Stargate, запустят в 2028, это будет пятой стадией постройкой Microsoft суперкомпьютеров для OpenAI. Третью заканчивают сейчас, четвёртую запустят в 2026 году, а звёздные врата откроют уже в 2028, с планируемым расширением в 2030.

Жрать энергии оно будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.

Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.

Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.

Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.

Что вообще они там собираются тренировать? 😢

@ai_newz

Читать полностью…

Нейросети и Блендер

🚀SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Подход: Введение уменьшенных моделей и сокращение шагов выборки значительно снижает время генераций. Дистилляция знаний и упрощение U-Net и декодеров изображений, а также новая техника обучения DM обеспечивают прорывную скорость.

☺️ 1 шаг = 1 картинка

Обещают две модели(Старая версия SDXS-512 доступна на HF):
— SDXS-512, 100 FPS (30x faster than SD v1.5)
— SDXS-1024, 30 FPS (60x faster than SDXL)
указано, что скорость достигается на одной GPU, но без указания какой, 🐈‍⬛предположим A100.

Так же показывают, что возможно дообучение ControlNet.

INFOPAPERWEIGHTS(OLD SDXS-512)—COLAB(OLD SDXS-512)(Быстрый даже на T4, сделал там и вариант с видео, где батчем сразу собирается в короткий ролик)

Ждем полноценных весов и тестим на рейлтайм генерациях в СomfyUI.

Читать полностью…

Нейросети и Блендер

IP-Adapter обновился, хотя и сопровождается смешанными новостями.

🐈‍⬛ Плохие новости:

— Новая версия IP-Adapter несовместима с предыдущими рабочими процессами, что требует перестройки с новыми нодами.

🐈‍⬛ Хорошие новости:

— Единый загрузчик(unified loader) упрощает выбор моделей, напрямую подключаясь к модельному пайплайну. (Правда в таком случае будут подгружаться все модели, что нагружает вашу систему) Теперь генерировать результаты стало проще; достаточно выбрать тип адаптера IP, подключиться и выбрать изображение-ссылку.

— Новый подход к использованию различных моделей, как SDXL, включает простую смену checkpoint и latent size для обновлений.

— Специальная обработка с face ID models загрузчика для оптимизации использования VRAM.

— Расширенные функции включают узел Advanced IP-adapter для точного контроля над эффектами редактирования и инъекцией шума с помощью специальной ноды.

— Введение clip vision mask в encoder позволяет более целенаправленно модифицировать изображения.

— Теперь в batch images можно подавать разные стили, и тем самым стилизовать каждый кадр, подходит для теста многих стилей или видео, где каждый кадр будет в разном стиле. (Для старого подхода использование нескольких картинок для одного стиля теперь иной пайплайн)

Мато подчеркнул простоту новой системы, призывая пользователей исследовать обширные возможности настройки, от контроля шума до продвинутых стратегий встраивания для генерации изображений. Несмотря на необходимость перестраивать рабочие процессы, обновление обещает большую гибкость и эффективность в проектах редактирования видео и изображений.

Помните, если вы работаете над чем-то критически важным, возможно, стоит отложить обновление из-за изменений. Мато обещает скоро подготовить подробную документацию и призывает делиться отзывами о новых функциях.

YOUTUBE, где все подробно показано на английском.

На этом пока всё. Чао и удачного творчества с новым IP-Adapter!

Читать полностью…

Нейросети и Блендер

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

Читать полностью…

Нейросети и Блендер

Невероятный пример использования контекстной анимации с масками в IPAdapters

В данном случае используются старые генерации, наработанные временем для создания по ним уникальной анимации. (Спасибо IP-Adpater)

Автор - goji__

Читать полностью…

Нейросети и Блендер

Абстрактная контекстная анимация с масками в IPAdapters

Повторил и чуть усложнил процесс, который показал Purz на своем стриме.

Идея в использование attention масок в IP-adapter и AnimateDiff кастомных лор для создания уникальных зацикленных абстракций.

А для ускорения всего процесса используется LCM. Работает даже на t4, проверял.

Для входной картинки используется 2D абстракция на шейдарах в Блендере, вот тут как раз я и решил усложнить задачу и подать 3D картинку (пример маски в комментах)

🫡ComfyUI пайплайн от Purz с LCM в комментах.

🍔 AnimateLCM LoRA
🍔 AnimateLCM Motion Model
💜 Shatter Motion LoRA
😳 AnimateDiff / ControlGIF ControlNet

Читать полностью…

Нейросети и Блендер

MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!

Качественных Mocap 3D данных движения людей и животны очень мало. Например, их почти нет для таких видов спорта, как баскетбол или танцев, а так же для животных. Причина тому - доороговизна и недобство сбора таких данных (нужно оборудования, нацеплят трекера на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.

В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!

Сайт проекта
Статья

@ai_newz

Читать полностью…

Нейросети и Блендер

Киллер-фича #Midjourney V6 🤔

За всем потоком новостей я её пропустил, а вы не пропускайте. Style Transfer - возможность использовать любую картинку как стилевой референс. То есть, вы можете написать промпт, кинуть URL изображения, и на выходе получится генерация, учитывающая стилистику этого изображения.

Сделал несколько примеров с промптом: CAT WITH KNIFE + (стилевой референс).

Чем это отличается от обычного добавления картинок в промпт? 🤨

По классической схеме с картинки бралось и смешивалось всё. То есть, если бы я кинул Марго Робби как обычный референс, то на выходе получилась бы розовая женщина-кошка с ножом.

Стилевой референс - про стиль, эстетику, но не конкретный объект или сюжет.

Почему это круто? 😋

Больший контроль и возможность сохранения стилевой последовательности, чего сейчас приходится добиваться танцами с бубном. Midjourney плавно переходит от "сделать капец красиво" к "сделать капец красиво и как надо".

Как использовать стилевые референсы?

После вашего промпта введите --sref вместе с URL изображения

Что еще?

Можно использовать НЕСКОЛЬКО изображений, например --sref urlA urlB urlC
Можно установить ВЕС каждого стиля, например --sref urlA::2 urlB::3 urlC::5
Можно установить СИЛУ стиля через --sw 100 (100 - это по умолчанию, 0 - выключено, 1000 - максимум).

Я пойду дальше проводить эксперименты, а вы кидайте в комментарии свои. 🍴

Читать полностью…

Нейросети и Блендер

SORA: генерация видео от OpenAI

Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!

Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)

We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT

Благодаря этому модель "видит" все сгенерированные кадры и демонстрирует невероятную консистентность! Даже если объект временно ушёл за пределы видео, то он может вернуться обратно без искажений. Ещё известно, что они используют синтетические кэпшны как в DALL-E 3

Блог

Читать полностью…
Subscribe to a channel