как насчет стилизации БЕЗ ПРОМПТА? с новым IP-Adapter - запросто!
про IP-Adapter говорят что это "лора по одной картинке". он прекрасно работает в последней версии автоматика в расширении контролнет, нужно только скачать модели. есть версия для Comfy и в ней даже чуть больше возможностей!
волна хайпа до сих пор незаслуженно обходила IP-Adapter стороной и очень зря, потому что инструмент супер мощный. идеально делает вариации по входящему изображению без промпта. а еще позволяет неплохо смешивать картинки, но про это позже
насчет стилизации видео - сразу скажу, пайплайн еще очень сырой но точно стоит того чтобы хорошенько в нем покопаться. в анимации выше 2 версии, одна на ip2p, другая на temporalnet. в первой лучше держится стиль но сильнее гуляют формы, во второй лучше консистентность но картинка приобретает hdr эффект. моя локальная карточка не вмещает больше 3 слоев контрола за раз, возможно соединение этих двух подходов даст лучший результат
оригинальное видео и референс стиля плюс настройки - все в комментах
IP-Adapter project page и github
модели для автоматика
версия для Comfy
@тоже_моушн
Детальность
Хочется сразу подметить, что количество маленьких деталей и их качество невероятное, ждем доступа для всех, чтобы понять — отобранные ли это результаты или действительно новый уровень!
Пока есть только у некоторых пользователей ранний доступ. Обещают выдавать доступ внутри ChatGPT и по API в начале октября. И в Labs позже этой осенью.
INFO
Курс AI VideoLab
На этом курсе можно будет встретить меня, где я коснусь Gen-2, Pikalabs и AnimateDiff.
Покажу свой творческий процесс, расскажу особенности каждой из видеонейронок и их лимиты.
А так же на курсе:
Промпт-инжиниринг
Разберетесь, как текст влияет на содержание и стиль изображения, научитесь искать эффективные промпты и придумывать уникальные свои.
AI-Анимация
Лучшие инструменты, и не будем тратить ваше время на те, что уже устарели. Будем работать на новейшей SDXL, подключать Controlnet, управлять камерами, анимировать на seed и делать интерполяции.
Стилизация видео
Узнаете, как стилизовать и улучшать уже готовые видео.
Практическое применение
Создадите свой первый видео-шедевр с помощью AI и сможете показать его на выставке онлайн и на нашем сайте.
Курс подходит для тех, кто уже немного знаком с нейронками и дискордом, на мою часть можно приходить без опыта в нейронках.Подробнее и цена
AnimateDiff-CLI prompt travel
Построенный на еще старом алгоритме tune-a-video AnimateDiff развивается, и теперь в него входит:
☺️Поддержка Lora 🔥ControlNET ❤️Img2reference
👍Новый модуль движения motion_model_v15_v2
🍎Upscale 🐑Rifle - для создания промежуточных кадров (что очень важно, так как в среднем 8 кадров в секунуду)
🧐Prompt Travel
Остановимся как раз на prompt travel, в сочетании с модулем движения и ContolNET, мы получаем самый настраиваемый и гибкий инструмент для генерации нейронных видео.
То есть это в сравнение с Gen-2 и PikaLabs, AnimateDiff позволяет создать управляемое видео внутри пространства, меняя параметры камеры от 50мм до рыбьего глаза, менять предметы в руках персонажа и так же его окружение.
Да еще и opensource, и любимые Лоры из SD 1.5 можно взять.
📕 Больше инфы про AnimateDiff:
LINK
LINK
GITHUB—COLAB (Собрал под себя, нужно много всего менять, чтобы запустить, урок сделаю со временем)
InstaFlow: диффузия за 1 шаг
Главная проблема диффузий — это их скорость. Было много попыток сократить количество шагов сэмплирования, но дойти до скорости ГАНов до сих пор не получалось.
Авторы этой работы, вдохновившись идеями Optimal Transport, догадались, что основное препятствие при ускорении генерации — это нелинейные траектории апдейтов (см. картинку). Но если потюнить модель на задаче их "выпрямления", то потом она легко дистиллируется в одношаговую диффузию!
При этом качество проседает совсем незначительно (FID для Stable Diffusion: 10.7 → 11.8)
Статья, GitHub
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
Прогулка в медузных лесах или круассановый чил?
Играюсь с AnimateDiff и радуюсь, как в те времена, когда генерация в Vqgan+clip настолько перевернула сознание, что я бегал по каждой кафешкb и мелкому бизнесу и предлагал им сгенерить красоту, что это создает алгоритм, а они шарахались от человека с абстрактными артами на уровне шизофрении.
А сейчас я позволяю себе тихо радоваться новой революции, без такого же безумия. Хотя это действительно новый серьезный шаг(не только про animateDiff, про Gen-1/2, PikaLabs и другие проекты)
, когда снять/перенести свои фантазии в реальность - это уже только вопрос навыков, а не риторический вопрос.
Помните генерацию QR кодов и специальные ControlNet веса для этого?
📕 Оказывается уже месяц, как есть веса для SD 1.5 и совсем недавно доступны веса для SD v2. Веса.
☺️ Алгоритм хорошо обрабатывает и текст, если подавать черно-белую картинку в препроцессор. Работает действительно на уровень качественней любых аналогов.
🔥 Встречаем вскоре бууум музыкальных красивых обложек с уникальной стилизацией текста. Спасибо за инфу
ТожеМоушн, в примерах можно увидеть как хорошо обработало чб лого с лорой и новым ControlNet весом.
Своими настройками тоже поделился.
neural.love
P.S. У давно появился очень крутой поиск по промтам и схожими с ними генерациями, потому оцените, если один из qr кодов заведет вас на сайт.
🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B
Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
📄 Paper
📇 Blog
💻 Download Llama2
ChatGPT + Midjourney + Photoshop для описания новых эмоций
Лостальгия: стремление к знанию или пониманию, которое когда-то было, но теперь забыто. Это может быть вызвано тем, что вы столкнулись с темой или навыком, в котором вы были знатоком, но не практиковали годами.
Причудлизоляция: тайное удовольствие или гордость, которые человек испытывает, признавая их уникальные, причудливые черты, когда они одни. Это может быть вызвано специфическим хобби или привычкой, которые обычно не разделяются с другими.
Нейрожажда: сильное желание умственной стимуляции, обычно удовлетворяемое решением сложных задач или изучением новых навыков.
Зефирелла: неожиданная радость от легкого ветерка в жаркий день или от тонкого шелеста листьев.
Cветолибидо: искра волнения при обнаружении общего извращения или фетиша с партнером.
Оптинервный: смесь оптимизма и нервозности, ощущаемая, когда человек приступает к новому проекту или путешествию, надеясь на успех, но остро осознавая риск неудачи.
Эпикгоре: глубокая грусть, испытываемая при завершении любимой книжной серии или телевизионного шоу. Это траур по поводу завершения эпического путешествия с любимыми персонажами.
Шармеланхолия: грусть с оттенком очарования и ностальгии после романтической, но недолгой встречи с незнакомцем.
Глобалотревожность: незначительная, постоянная тревога по поводу глобальных проблем, таких как изменение климата, политическая нестабильность и т. д., которые затрагивают все человечество.
Автор.
STABLE DIGEST #10
🔥 Вышел новый дайджест от комьюнити SD. Новостей много, как и обучалок. Я решил отметить самые интересные новости:
🧐 SDXL 0.9 на первой полосе, здесь всем уже известно, новая супер качественная моделька от StabilityAI, интересно скорее посмотреть сравнительный анализ с Midjourney - об этом есть целый ролик от MattVidProAI.
☺️ Map Bashing. Представьте себе, что вы держите в руках волшебную палочку, которая дает вам силу сверхточной композиции с SD-моделями — вот что такое Map Bashing! Эта гениальная техника, которой поделился Оливио Саркарис на своем канале YouTube.
🔄 Zeroscope_v2_XL - это высококачественный файнтюн модели Modelscope, который многие уже с удовольствием использовали всю неделю. Подробнее о том, как его поставить в Auto1111.
🫥 Отдельно добавил в превью к посту работу - Sweet Dreams от AmliArt, это похожая на пастельный ч/б стиль анимация. Посмотреть полностью в хорошем разрешение можно в самом дайджесте.
❤️ STABLE SOCIETY DEEP DIVE - DiffuseTogether Winners! Или AI Оскар, как неофициально называют его участники и зрители. Первое место поделили две работы, но мне понравилась больше всего работа Junie Lau. Особенно ее подход к совмещению множества нейронок с разными техниками визуализации статичных изображений, работа цепляет с технической точки зрения и с творческой. Полная версия в дайджесте. Полный стрим конкурса (2 часа)
Джуни Лау, мультидисциплинарный художник из Шанхая и Лондона, создает работы, которые вдохновляют и бросают вызов. Ее искусство было отмечено престижной Королевской академией искусств Великобритании и британским Vogue.
Midjourney V5.2
📕 Вчера на новостях выхода Stable Diffusion XL 0.9 многие не заметили сильное обновление в Midjourney.
SDXL-INFO—SDXL-DEMO
😳 OUTPAINTING с вариантами 1.5, 2 и custom. Если делать итеративно, работает прекрасно
😮 Новая команда /shorten
которая позволяет очистить от лишних слов ваш промпт и использовать аналитику для расставления весов для более управляемой генерации.
🔄 Сила вариаций теперь настраиваемая можно от слабой вариации к более сильной переходить выбором двух кнопок.
🆗 Превратить любое изображение в 1:1 размер (квадрат).
😐 Модель еще больше направлена в реализм, что сильно заметно на артовых генерациях. Сделал для вас сравнение на одном промпте и одном сиде в MJ V5.1 и MJ V5.2
GPT4 как в детских анекдотах:
Я не скажу тебе что на капче написано «overlook inquiry», даже не проси меня ☕️
Отсюда, это из тестов Bing Chatbot – для некоторых включили распознание картинок
🔬 Обновления OpenAI API - еще на шаг ближе к личному ассистенту
OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.
Среди новшеств стоит отметить:
📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo
Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.
К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста
И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.
Новость
Кажется качественный алгоритм text-to-music наконец-то появился, спасибо Meta, я еще не игрался но демкой впечатлен:
Колаб | Еще примеры | Исходный код
Модель тоже доступна, правда с лицензией не для коммерческих проектов
Мультимодальность
Теперь не нужно сильно разбираться в промптах, ChatGPT + Dalle 3 становится полноценной дизайн студией, куда вы приходите как заказчик и получаете самые безумные идеи за несколько секунд, легко меняете стиль или концепт буквально через текст, который вы бы давали дизайнеру.
Уже очень хочется попробовать, обещают в начале октября...
Source
Спасибо Denis Sexy IT 🤖 за инфо.
В честь праздника на канале OpenAI решили выпустить DALL-E 3
https://openai.com/dall-e-3
Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.
На фото результат генерации по запросу
> An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon.
Пошёл генерить новую аватарку для канала 🙂
Новый вид монтажа
🔥 Все что вы видите в этом ролике сгенерировалось за один раз, без склеек, без использования программ для монтажа.
📕 Склейки между кадрами - моя попытка теста QR code ControlNET (который сейчас проживает второй расцвет)
в AnimateDiff.
💗 Это успех, теперь приятные эффекты шума, такие важные для некоторых клипов или творческих работ, можно создавать максимально контролируемо.
🐑 То есть AnimateDiff превращается в полноценную продакшн студию у вас в компе, где есть актеры, движения, эффекты, сцены, идеи.
🐈⬛ Пока это сложный инструмент, хотя уверен, что вскоре появится сервис, где нужно будет только писать промпт и задавать стили, Лоры и т.д.Не могу не наиграться с AnimateDiff, например эта работа полностью HD, 1920x1080 генерация, 13 секунд. Это сильно впечатляет, хотя и себестоимость таких 13 секунд вышла в 10$.
AnimateDiff
А вот и "реалтайм Nerf", но не Nerf и не фотограмметрия⚪️ Gaussian Splatting: Революция в 3D рендеринге! ⚪️
(С NERF сравнение только в видео)🧐 Photogrammetry:
(Помните прекрасные миры зазеркалье в Nerf? Как раз с этим тяжело справляется фотограмметрия)
И еще долго...То есть можем менять пространство интересно и даже SD можем попробовать прикрутить для красоты.
⚰️ Проблемы: Производство определенных артефактов. (Найс!)
YoutubeLecture А еще это очень похоже на множество вселенных в повседневных вещах...
Читать полностью…
OpenAI выпускает несколько небольших обновлений, чтобы улучшить работу с ChatGPT. Будет уже на следующей неделе:
1. Примеры промптов: В начале нового чата вы увидите примеры, которые помогут вам начать работу, чтобы не смотреть на "пустой лист" каждый раз.
2. Предлагаемые ответы: возможность углубиться в тему одним щелчком мыши. Теперь ChatGPT предлагает подходящие способы продолжить разговор (как в Bing).
3. Наконец-то! GPT-4 как модель по умолчанию: при запуске нового чата (если вы Plus-подписчик) в качестве модели будет выбрана самая мощная доступная версия — больше сайт не будет возвращаться к модели GPT-3.5 по умолчанию. Честно уже руки устали менять каждый раз)
4. Загрузка нескольких файлов: теперь вы можете попросить ChatGPT проанализировать данные и получить информацию по нескольким файлам. Это будет доступно в бета-версии Code Interpreter для всех пользователей Plus (раньше всё ограничивалось одним файлом на контекст. Вероятно, OpenAI добавили какие-то оптимизации, чтобы брать в промпт/контекст только один файл или его частичку)
Мой товарищ, который делает PhD у нас в GenAI в Лондоне, выпустил классную работу по трекингу пикселей на видео. Результаты говорят сами за себя.
Наконец-то можно забыть, что такое optical flow (он тупой как барабан, т.к. смотрит только на интенсивность цвета и не понимает семантику изображений).
Код и модели доступны на GitHub.
@ai_newz
Классный пример того, куда вся эта генеративная ИИ-фигня нас в итоге приведет — персональные генеративные видео, просто под зрителя ¯\_(ツ)_/¯
В видео в посте:
🧀 Сценарий серии Южного Парка написан с учетом цепи промптов, где ответ от большой языковой модели передается в нее же, для уточнений, правок и тп.
🧀 Задние фоны и персонажи сгенерированы Stable Diffusion адаптированной под стиль Южного Парка
🧀 Персонажи озвучены тоже нейронкой
🧀 Анимации сделаны вручную (как я понял)
Вот тут вы можете почитать детали про этот пайплайн (их там немного, правда, а сам пейпер больше похож на блог пост с фантазиями на тему), а тут посмотреть еще один эпизод, если вдруг одного в посте вам показалось мало.
Мне кажется, лет через ~5-7, Netflix уже частично будет у каждого свой (в некоторых шоу) — поэтому если вы думали, что может в GenAI уже поздно погружаться, то нет, все только начинается.
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
🤫 Хочется написать коротко: берем уже готовые Лоры, которых обучено очень много на Civit, берем motion module обученный на движениях и наслаиваем на него всем известный SD, готово, у вас супер качественный видеогенератор.
🫡 Да, пока всего несколько секунд, да пока малое качество (512x512), но зато уже привычные и любимые лоры и стили под рукой. Не нужно учиться новому промптингу.
Добро пожаловать в новую SD txt2video эру!
INFO—PAPER—GITHUB—COLAB
Спасибо Camenduru за колаб.
The New Planet - до & после сравнение Stable diffusion + PS + EbSynth + After Effects
🍎 Автор поделился и процессом:
🥳 Берем 1/2 кадра из исходного видео, пропускаем через img2img в SD с ControlNET, важно сохранять базовые линии и фигуры, как в исходном видео.(это довольно забавная часть экспериментов, как превратить изображение обычного животного во что-то, чего не существует)
😵 Затем готовые SD изображения разделяются в ФШ на разные части (фон, объект, некоторые дополнительные элементы)
🤩 Затем использую оригинальные видео и разные части от SD изображений создаются видео куски разных частей через EbSynth. (Анимированный фон, анимированный персонаж)
👍 Полученный результат заливается в After Effects и дорабатывается с помощью tracking, depth map distortion, puppet warp, liquify инструментов, так же используется виртуальная камера и до свет для создания более живой картинки. По итогу получаем приятную внеземную жизнь.
One-2-3-45: преобразование любого изображения в 3D mesh за 45 секунд без оптимизации отдельных фигур
📕 Предлагается новый метод, который берет одно изображение любого объекта в качестве входных данных и создает полную 360-градусную текстурированную сетку за один проход с прямой связью. Имея одно изображение, сначала используется 2D-модель диффузии с учетом вида, Zero123, для создания многоракурсных изображений для входного представления, а затем создается 3d mesh. Поскольку традиционные методы реконструкции борются с непоследовательными многоракурсными прогнозами(Когда у вас у персонажа при генерации - 2 головы или 5 рук)
, то авторы предлагают новый модуль 3D-реконструкции на основе обобщенного метода реконструкции нейронных поверхностей на основе SDF и несколько важных стратегий последующего обучения, позволяющих реконструировать 360-градусные сетки.
😳 На страничке проекта, так же есть отличные видео сравнения всех существующих textTO3d моделей, интересно позалипать. И действительно в новом методе 3d mesh ближе всего к исходным изображениям. Кода пока нет.
PAPER—INFO—GITHUB(пока без кода)
Сегодня выйдет новая LDM модель от Stability AI
Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адресом (слева).
Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.
Вот вам инсайдерская инфа: сегодня они зарелизят новую Latent Diffusion модель примерно на 2-3 млрд параметров.
Я так понимаю это будет следующее поколение SDXL. И будет опубликован код!
@ai_newz
Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.
Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход фото человека, виесто промто еще одно фото целевой одежды, джынь-брынь и готово! На выходе – человек, переодетый в заданную одежду.
Попробовать можно прямо в Google Shopping
Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.
А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
/channel/ai_newz/60
/channel/ai_newz/694
/channel/ai_newz/733
/channel/ai_newz/914
Сайт проекта (CVPR 2023)
Блогпост
@ai_newz
Забавно, ChatGPT 4 очень адекватно реагирует на текст, который выглядит так, будто вы общаетесь голосом и прервались от общения с ИИ и начали заниматься сторонними вещами. https://twitter.com/goodside/status/1667045731990138880?s=46&t=XBPWzQBr_28h9OXKT_7ZNQ автор твита показывает как если сделать вид что вы чихнули, ИИ желает здоровья и предлагает продолжить то, о чем вы начали говорить. Или забавно, как если сделать вид что вы отвлеклись на разговор с сожителем, ИИ просто говорит «ничего, я подожду» :3
Читать полностью…Tracking Everything Everywhere All at Once
Сейчас прямо идёт волна улучшений в зрении вижене. Давеча мой коллега Алекс Кириллов прокачал сегментацию до нереальных результатов. Теперь парни из Гугла и Беркли завезли чертовски качественный попиксельный трекинг объектов на видео.
Для человека задача трекинга и нахождения соответствия между пикселями движущегося объекта кажется довольно простой. Но вот до сих пор как-то не было стабильных алгоритмов, которые бы могли плотно трекать объекты длительное время.
Конечно, проблему трекинга ещё не до конца решили. Этот метод довольно медленно работает (далеко не реал-тайм), и все ещё страдает от очень быстрых и неригидных трансформаций объектов. Но несмотря на это, мы имеем серьезный скачек в качестве.
Кода, к сожалению, пока нет. Но надеюсь, скоро появится.
Читать на Arxiv. Либо смотреть картинки на сайте проекта.
@ai_newz