monkeyinlaw | Unsorted

Telegram-канал monkeyinlaw - Нейросети и Блендер

12225

Дизайн и искусство в Blender и в AI https://linktr.ee/monkeyinlaw

Subscribe to a channel

Нейросети и Блендер

Adobe показал грядущие обновления в Premiere Pro

Что самого прорывного обещают добавить в Premiere Pro:

— Генеративное расширение
— Добавление объектов видео
— Удаление объектов из видео

— Звук: автоматическую фильтрацию и запикивание текстов (youtube монетизация привет), транскрибацию, разметку звуков на музыку, текст, эффекты и много другое


И самое интересное тут в секции сторонние плагины в генеративном расширение видео. Adobe предлагает text2video сразу трех сторонних компаний внутри Premiere Pro:

Pika
Runway
иии OpenAI, получается заанонсили Sora в Premiere Pro!

АНОНС

Читать полностью…

Нейросети и Блендер

Stable Audio 2 - генерация коммерческой музыки по промпту

Самое интересное в модели - это то что её тренировали только на лицензированных данных, так что новому CEO Stability AI будет поспокойнее.

Архитектурно это, как и Sora с SD3, Diffusion Transformer, похоже U-Net всё же отправляется на покой.

Моделька доступна на сайте, API, как и пейпер обещают позже. Весов нет и вряд-ли будут.

А ещё они запустили стрим с непрерывной генерацией музыки, lofi girl напряглась.

Сайт (бесплатно дают 10 генераций с новой моделькой в месяц)
Блогпост
Стрим с вечной музыкой

@ai_newz

Читать полностью…

Нейросети и Блендер

Microsoft планирует построить для OpenAI суперкомпьютер за $100 миллиардов (!). Называется Stargate, запустят в 2028, это будет пятой стадией постройкой Microsoft суперкомпьютеров для OpenAI. Третью заканчивают сейчас, четвёртую запустят в 2026 году, а звёздные врата откроют уже в 2028, с планируемым расширением в 2030.

Жрать энергии оно будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.

Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.

Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.

Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.

Что вообще они там собираются тренировать? 😢

@ai_newz

Читать полностью…

Нейросети и Блендер

🚀SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Подход: Введение уменьшенных моделей и сокращение шагов выборки значительно снижает время генераций. Дистилляция знаний и упрощение U-Net и декодеров изображений, а также новая техника обучения DM обеспечивают прорывную скорость.

☺️ 1 шаг = 1 картинка

Обещают две модели(Старая версия SDXS-512 доступна на HF):
— SDXS-512, 100 FPS (30x faster than SD v1.5)
— SDXS-1024, 30 FPS (60x faster than SDXL)
указано, что скорость достигается на одной GPU, но без указания какой, 🐈‍⬛предположим A100.

Так же показывают, что возможно дообучение ControlNet.

INFOPAPERWEIGHTS(OLD SDXS-512)—COLAB(OLD SDXS-512)(Быстрый даже на T4, сделал там и вариант с видео, где батчем сразу собирается в короткий ролик)

Ждем полноценных весов и тестим на рейлтайм генерациях в СomfyUI.

Читать полностью…

Нейросети и Блендер

IP-Adapter обновился, хотя и сопровождается смешанными новостями.

🐈‍⬛ Плохие новости:

— Новая версия IP-Adapter несовместима с предыдущими рабочими процессами, что требует перестройки с новыми нодами.

🐈‍⬛ Хорошие новости:

— Единый загрузчик(unified loader) упрощает выбор моделей, напрямую подключаясь к модельному пайплайну. (Правда в таком случае будут подгружаться все модели, что нагружает вашу систему) Теперь генерировать результаты стало проще; достаточно выбрать тип адаптера IP, подключиться и выбрать изображение-ссылку.

— Новый подход к использованию различных моделей, как SDXL, включает простую смену checkpoint и latent size для обновлений.

— Специальная обработка с face ID models загрузчика для оптимизации использования VRAM.

— Расширенные функции включают узел Advanced IP-adapter для точного контроля над эффектами редактирования и инъекцией шума с помощью специальной ноды.

— Введение clip vision mask в encoder позволяет более целенаправленно модифицировать изображения.

— Теперь в batch images можно подавать разные стили, и тем самым стилизовать каждый кадр, подходит для теста многих стилей или видео, где каждый кадр будет в разном стиле. (Для старого подхода использование нескольких картинок для одного стиля теперь иной пайплайн)

Мато подчеркнул простоту новой системы, призывая пользователей исследовать обширные возможности настройки, от контроля шума до продвинутых стратегий встраивания для генерации изображений. Несмотря на необходимость перестраивать рабочие процессы, обновление обещает большую гибкость и эффективность в проектах редактирования видео и изображений.

Помните, если вы работаете над чем-то критически важным, возможно, стоит отложить обновление из-за изменений. Мато обещает скоро подготовить подробную документацию и призывает делиться отзывами о новых функциях.

YOUTUBE, где все подробно показано на английском.

На этом пока всё. Чао и удачного творчества с новым IP-Adapter!

Читать полностью…

Нейросети и Блендер

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

Читать полностью…

Нейросети и Блендер

Невероятный пример использования контекстной анимации с масками в IPAdapters

В данном случае используются старые генерации, наработанные временем для создания по ним уникальной анимации. (Спасибо IP-Adpater)

Автор - goji__

Читать полностью…

Нейросети и Блендер

Абстрактная контекстная анимация с масками в IPAdapters

Повторил и чуть усложнил процесс, который показал Purz на своем стриме.

Идея в использование attention масок в IP-adapter и AnimateDiff кастомных лор для создания уникальных зацикленных абстракций.

А для ускорения всего процесса используется LCM. Работает даже на t4, проверял.

Для входной картинки используется 2D абстракция на шейдарах в Блендере, вот тут как раз я и решил усложнить задачу и подать 3D картинку (пример маски в комментах)

🫡ComfyUI пайплайн от Purz с LCM в комментах.

🍔 AnimateLCM LoRA
🍔 AnimateLCM Motion Model
💜 Shatter Motion LoRA
😳 AnimateDiff / ControlGIF ControlNet

Читать полностью…

Нейросети и Блендер

MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!

Качественных Mocap 3D данных движения людей и животны очень мало. Например, их почти нет для таких видов спорта, как баскетбол или танцев, а так же для животных. Причина тому - доороговизна и недобство сбора таких данных (нужно оборудования, нацеплят трекера на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.

В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!

Сайт проекта
Статья

@ai_newz

Читать полностью…

Нейросети и Блендер

Киллер-фича #Midjourney V6 🤔

За всем потоком новостей я её пропустил, а вы не пропускайте. Style Transfer - возможность использовать любую картинку как стилевой референс. То есть, вы можете написать промпт, кинуть URL изображения, и на выходе получится генерация, учитывающая стилистику этого изображения.

Сделал несколько примеров с промптом: CAT WITH KNIFE + (стилевой референс).

Чем это отличается от обычного добавления картинок в промпт? 🤨

По классической схеме с картинки бралось и смешивалось всё. То есть, если бы я кинул Марго Робби как обычный референс, то на выходе получилась бы розовая женщина-кошка с ножом.

Стилевой референс - про стиль, эстетику, но не конкретный объект или сюжет.

Почему это круто? 😋

Больший контроль и возможность сохранения стилевой последовательности, чего сейчас приходится добиваться танцами с бубном. Midjourney плавно переходит от "сделать капец красиво" к "сделать капец красиво и как надо".

Как использовать стилевые референсы?

После вашего промпта введите --sref вместе с URL изображения

Что еще?

Можно использовать НЕСКОЛЬКО изображений, например --sref urlA urlB urlC
Можно установить ВЕС каждого стиля, например --sref urlA::2 urlB::3 urlC::5
Можно установить СИЛУ стиля через --sw 100 (100 - это по умолчанию, 0 - выключено, 1000 - максимум).

Я пойду дальше проводить эксперименты, а вы кидайте в комментарии свои. 🍴

Читать полностью…

Нейросети и Блендер

SORA: генерация видео от OpenAI

Я не был настолько взбудоражен со времён выхода GPT-2! Им удалось опять втайне ото всех совершить чудо!

Пишут, что это гибрид диффузии и GPT, то есть они вернулись к авторегрессионной генерации (как первый DALL-E)

We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT

Благодаря этому модель "видит" все сгенерированные кадры и демонстрирует невероятную консистентность! Даже если объект временно ушёл за пределы видео, то он может вернуться обратно без искажений. Ещё известно, что они используют синтетические кэпшны как в DALL-E 3

Блог

Читать полностью…

Нейросети и Блендер

Выкатили новый тул для нейролава «Logo Generator»

Поскольку щебень – официально самая скучная вещь в мире, сделал для щебня логотипов, вдруг поможет.

Работает тул просто: пишите название и описание бренда, а инструмент возвращает вам 50 логотипов.

Из фич:
– Можно сделать текст частью лого (поддерживается только английский пока что)
– Выбрать цветную или монохромную палитру
– Выбрать стили (cartoon мой любимый 🫶)
– Картинки в результате не векторные, а растровые
– Права на лого тоже ваши

Что под капотом: это связка Dalle 3 и GPT 4, поэтому инструмент сразу платный.

Ссылка:
https://neural.love/ai-logo-generator

Если захотите попробовать, вот скидка для подписчиков канала на 20%, на первый месяц:
LOGOMAKER20

P.S. Почему вообще начали делать этот
инструмент – я именно так делал логотип для littlestory.io, это оказалось намного быстрее – сделал 50 идей, команда проголосовала за лучший вариант, отдали лого дизайнерке на отрисовку в векторе, заняло все дня два ☕️

P.P.S. Ну и покажу финансы по нему через полгода, я знаю, всем интересно

Читать полностью…

Нейросети и Блендер

🌐 VOYAGER: одна из первых действительно агентных систем.

В октябре прошлого года команда исследователей из NVIDIA, Калифорнийского технологического института, UT Austin, Стэнфорда и UW Madison представила VOYAGER, агента ИИ, который обучается и автономно исследует миры Майнкрафта. Давно хотел про него написать.

На картинке выше 👆 сравнение различных агентных систем, как можно увидеть из графика, VOYAGER (оранжевый) открыл самое больше количество инструментов и быстрее всех адаптировался к игровому миру.

Появление VOYAGER плюс минус совпало с поворотным моментом в развитии ИИ (DevDay от OpenAI). Речь идет о потенциале и возможностях, которые он представляет для будущего (настоящего) агентных систем:

1. Надежное обучение: Благодаря автоматическому составлению учебных планов и библиотеке навыков, VOYAGER демонстрирует, как ИИ может вырабатывать сложные модели поведения с течением времени (и мы видим такое повеление в более прикладных системах)

2. Адаптивный интеллект: Способность агента учиться у своего окружения и итеративно совершенствоваться - это значительный шаг к более динамичным и персонализированным системам ИИ (как например сделали сами OpenAI).

3. Устойчивые инновации: Проведенное в безвредной 3D-среде, это исследование подчеркивает насколько невероятное будущее нас ждёт с приходом более менее работающих роботов.

Даже спустя полгода VOYAGER служит образцом для будущих анкетных систем, способных обучаться и адаптироваться в режиме реального времени без вмешательства человека.

📰 Проект
🧱 Minedojo

Читать полностью…

Нейросети и Блендер

У Little Story кастомный стиль артов

Планирую дальше развивать его и перенести эти миры в 3D не без помощи Блендера и textTO3d моделей.

А пока поглядите варианты, который я отдельно отобрал — уютные генерации из Little Story мира.

Читать полностью…

Нейросети и Блендер

Безумно рад видеть столько контента про роботов

Небольшая история из детства:
В то далекое время я мечтал строить свои миры, гуляя по родному городу с другом всегда вел беседу как построить идеальный город, но так чтобы половину средств не своровали и качество было достойным. Еще когда создаешь нечто грандиозное важно не угробить время и жизни строителей. При всех этих условиях — решения кроме автономных систем на ум мне не приходило.

С тех времен я мечтал о роботах и автоматизации, но не делал сильных шагов в силу понимания сложности процессов и сколько времени/средств займет обучение. Смирился и лишь иногда следил за новостями из робототехнике.

С приходом нейронок я вновь стал мечтать и даже понимать, что кажется робототехнику возможно будет освоить таким как я в 2024 году.

Надеюсь доживу до момента, когда буду создавать такие картины в реальности на далеких планетах с помощью флотилий автономных систем. А если не доживу, то хотя бы постараюсь вложить идею в автономные системы, а они уже сами лет через 500 воплотят эту мечту.

А пока MJ v6 вытаскивает из моей головы наброски этих миров, с помощью старых моих работ и новых аугментаций.

Читать полностью…

Нейросети и Блендер

Face to All

Интересное решение на SDXL и InstantID, которое позволяет быстро трансформировать ваше лицо в разный стили при помощи Lora. В моих вариантах только стиль старых 3D консолей.

☺️ Можно сразу поиграться вот тут — DEMO

А если хочется потестить локально, то вот:

GITHUBCOMFYUI

🐈‍⬛ Единственный минус InstantID, что он не поддерживает картинки в которых лиц нет, например кадры из мультов.

Поэтому я собрал два пайплайна, со своими настройками, оба для ComfyUI:
— InstantID, который соблюдает все настройки, как в DEMO
— Кастом адаптацию через IPAdapter (И уже можно будет спокойно кидать кадры из мультов и картинки без лиц)
Json в комментах.

В оба варианта закинул Лору со стилем PlayStation 1, очень понравился этот стиль.
Хорошо работает при базовой версии SDXL.

P.S. Еще в колабе можно потестить на L4, новой GPU, которая по словам NVIDIA работает в 2.5 раза быстрее T4. Сравнение они брали на генерации картинки в SD v2.1 512x512 FP16, TensorRT 8.5.2. Еще и в неё(L4) по памяти больше картинки влазят.

🐱 Забавно видеть официальные метрики NVIDIA, которые тестят на Stable Diffusion.

Читать полностью…

Нейросети и Блендер

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Недавно парни из группы Photogrammetry and Remote Sensing (PRS) ETH Zürich выпустили модельку Marigold-LCM для вычисления карты глубины по одному изображению.

Тут используют Latent Consistency Model дистилляцию чтобы осуществлять семплинг карты глубины в ОДИН шаг, вместо обычных 10-50. Благодаря этому, теперь можно обрабатывать видео, что показано в тизере. Это еще один пример того, как ускоряют диффузию с помощью дистилляции (был пост про дистилляцию SD3), только тут вместо фоток генерируются depth map.

Идея
Первая модель Marigold вышла несколько месяцев назад и по сути являлась демонстрацией довольно простой идеи, которую описал мне соавтор статьи, Антон: если современные text-to-image модели способны выдавать фотореалистичные изображения, то они выучили довольно мощный generative prior, который знает проективную геометрию и как выглядят сцены из нашего реального мира. Ну а также из паралелльных миров, включая мемасы, комиксы, и прочую дичь которой занимаются в ComfyUI. А значит, можно брать свежую t2img модель с открытыми весами, минимально допиливать ее на уровне архитектуры чтобы не сильно отойти от натрененных весов, и файнтюнить ее при помощи небольшого набора данных на (почти) любой негенеративный таск. Вычисление карт глубины это как раз такая задача (ее новая, но все еще актуальная), и на ней довольно просто обкатать идею и измерить прогресс.

Что с результатами?
На деле у ребят получился мощный monocular depth estimation, которым вынесли MIDAS и прочие регрессионные U-Net решения, до сих пор используемые в Гугле, Диснее, и других уважаемых компаниях. Его отличительная особенность в том, что модель файнтюнится на синтетических рендерах комнат из датасета HyperSim, а на практике работает на любых сценах. И все благодаря мощному генеративному прайору Stable Diffusion 2, который являлся отправной точкой для файнтюна модели.

Демо (LCM, быстрое)
Демо (DDIM, качественное)
Сайт
Статья
Код

@ai_newz

Читать полностью…

Нейросети и Блендер

давненько не брал я в руки сплатов)
а если честно то особо и не погружался в эту тему глубоко. чтобы исправить это недоразумение, вашему вниманию:

внезапный обзор на бесплатные гауссиановы сплаты

Scaniverse
приложение для iOS, обучается быстро, заметно нагревает айфон, на экранчике выглядит красиво но для продакшна не годится

LumaAI
в представлении не нуждается, работает с телефонов и в браузере, выдает стабильно хороший результат, заложены всякие полезные плюшки

Jawset Postshot
работает локально, любит железо помощнее, обучается небыстро, зато красивый результат.
демо видео

а еще при установке Postshot спрашивает, не хотите ли плагин для афтера чтобы крутить свои сплаты как взрослый) лично не тестировал, но по секрету скажу что в скором времени нас ожидает гораздо более фаршированный плагин 3DGS для афтера, не переключайтесь

безобразие что до сих пор нет нормального импорта сплатов в блендер! есть плагин для рендера на сайклс но камон, это не реалтайм

а если хотите реалтайм - вот вам ассет для Touchdesinger. если чуть поиграться, можно добиться эффектов как на видео

@тоже_моушн

Читать полностью…

Нейросети и Блендер

🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 60-70 FPS на шлеме Oculus.

Сайт проекта

@ai_newz

Читать полностью…

Нейросети и Блендер

AnyV2V - инновационная пайплайн для редактирования видео, позволяющий использовать готовые модели для изменения первого кадра и генерации последующих кадров с сохранением согласованности с исходным видео.

Это упрощает редактирование видео до двух этапов:
— модификацию первого кадра с помощью моделей типа InstructPix2Pix, InstantID
— генерацию видео через I2VGen-XL для инверсии DDIM и инъекции признаков.

AnyV2V расширяет возможности редактирования за счёт поддержки новых задач, включая передачу стиля и редактирование, ориентированное на объект, превосходя традиционные методы по выравниванию подсказок и предпочтениям пользователей.

INFOPAPERGITHUB(код есть и рабочий)—DEMO(Replicate)

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml
group_config.json


InstructPIX2PIX занимает больше всего времени, в стандарте 16 кадров всего из оригинального видео.

Буду следить когда добавят в ноду для ComfyUI.

Читать полностью…

Нейросети и Блендер

Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz

Читать полностью…

Нейросети и Блендер

ELLA: Equip Diffusion Models with LLM for
Enhanced Semantic Alignment


Идея:
- CLIP как эмбедер не очень, давайте добавим в исходных Unet от sd1.5/xl слои которые будем обучать на эмбедингах из LLM, тем самым мы не потратим миллион денег на компьют, но начнем рисовать текст, понимать промпты и генерировать как большая модель.

site
code(выйдет попозже погулять)

Читать полностью…

Нейросети и Блендер

🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz

Читать полностью…

Нейросети и Блендер

Opensource решения для достижения качества SORA

Banodoco — опенсорс сообщество, которое много раз меня вдохновляло на новые идеи в создании анимаций через AnimateDiff и Stable Diffusion Video. Недавно они написали в дискорде по поводу развития опенсоурс видеонейронок:

SORA невероятно впечатляет, но контроль является самым важным аспектом для создания великого искусства, и благодаря работе сообщества, AnimateDiff сейчас значительно превосходит по точности управления движениями.

Чтобы дальше улучшить управление в AnimateDiff и помочь в раскрытии силы/ценности художественного контроля, мы можем сделать следующее:

№1: Удвоить наше преимущество в управлении, создав открытую армию Motion LORAs.

№2: Использовать весь наш контроль, чтобы создавать удивительное работы по всему миру.

Это краткое изложение основных моментов предложения по улучшению контроля в AnimateDiff и поощрению художественного контроля с использованием нейронок и открытых источников.


И действительно армия Лор уже начинает формироваться, вот некоторые из них:

Bubbling Rings
ANTs
Drone Orbit

Обучалка на английском как добавить Motion Lora в A1111 (с зумерским монтажом) Тут
Большая обучалка-стрим на английском про AnimateDiff в ComfyUI — Тут

От меня размышления: SORA ролики действительно впечатляют, только это черный ящик, судя по Dalle, где мы получаем невероятное понимание текста и при этом невероятные блоки на реализм, своих персонажей и качества выше 1024px, SORA будет такой же. Еще по GPU ресурсам: Не понятно сколько кластеров H100 используются для создания одного полминутного ролика.
Opensource варианты уже сейчас позволяют создавать 8к реалистичные картинки (да, это потребует опыта, кастомных решений и чуть больше прайса, чем одна картинка в Dalle).
Теперь мы приближаемся к видео генерациям, где у нас под контролем будут все параметры, при этом весь пайплайн будет собираться на локальных 3090 или T4 в аренде.

Читать полностью…

Нейросети и Блендер

🔥Stable Diffusion 3 на подходе!

Stability.ai наконец публично анонсировали, то о чем я говорил в этом посте.

Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.

- За счет этого модель умеет круто генерить текст.

- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.

- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно линейные траектории между шумом и реальными картинками.

@ai_newz

Читать полностью…

Нейросети и Блендер

SVD-ControlNets

В ноде Advanced-ControlNet в ComfyUI появилась поддержка моделей control net для Stable Diffusion Video.

Теперь вы можете лучше управлять направлением картинки, закидывая нужный референсный видеоряд и вытаскивая оттуда либо линии, либо карту глубины, а может и оба варианта для лучшего контроля.

Ожидаем позы для персонажей и творить станет еще проще.

Здесь есть стрим-урок на английском по карте глубины. (Урок еще до поддержки в Advanced-ControlNet)

Depth ContolNet SVD 🔄
LineArt ControlNet SVD 👀

Читать полностью…

Нейросети и Блендер

Depth Anything (25M q8) теперь и в transformers.js

Можно делать это ваше псевдо-3д-шевеление картинок прямо в браузере.
Мелкая моделька звезд с неба не хватает, но 27 мегабайт - это 27 мегабайт.
Вариации модели побольше тоже есть, но вряд ли вы будете каждый раз добровольно тянуть 300мб :D

tweet

github
demo

@derplearning

Читать полностью…

Нейросети и Блендер

Классный пост от Антона, про то как он принял участие в соревновании по расшифровке древних свитков уничтоженных Везувием (тот вулкан, что уничтожил Помпеи и соседние города в 79 году).

Антон хоть пока и не выиграл главный приз, но выиграл промежуточный:
/channel/repushko_channel/1953

…пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.

Очень люблю такое – сочетание передовых технологий и исторических материалов, это единственный способ заглянуть в наше, человеческое, прошлое

Читать полностью…

Нейросети и Блендер

Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.

Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких (сложность языка сказки подстраивается под возвраст).

Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.

Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.

Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нас ☕️).

Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io

Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)

P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку

P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10

Читать полностью…

Нейросети и Блендер

День с этим роботом выглядит примерно так 🥰

Читать полностью…
Subscribe to a channel