Анимация станет вскоре доступнее с Gen-1
🔄 Do The Evolution - первый полноценный анимационный короткий фильм созданный в RunwayStudio. Явно основную часть работы помог сделать новый алгоритм Gen-1.
📕 Здесь есть отсылки или возможно входящие видео из 2001: A Space Odyssey, и наверное еще многих известных картин, если узнаете, напишите в комменты.
Полноценный короткий метрРежиссер короткого метра:
Ricardo VillavicencioА тем, кто любит больше абстрактности и кислоты - вот есть еще упоротые версии из Gen-1 генераций -
LINK
ControlNet is (definitely) amazing 🤯
🔥 Известная обложка бесконечного LoFi стрима музыки для обучения превратилась в реалистичную фотку.
😳 Это правда третья попытка и самая удачная!
Попытка 1. Попытка 2.
📕 Воркфлоу как делалась лучшая попытка. Коротко:
— Img2img с промптом
— Дорисовываем кота
— Левую и правую руку с Canny моделью
— Добавляем детали с Depth моделью
— Добавляем свет на листьях и рукавах с Depth моделью
LinkЗа ссылку
спасибо
MimicPlay: долгосрочное имитационное обучение наблюдая за игрой человека
📕 Имитационное обучение на примерах от людей — многообещающая парадигма для обучения роботов навыкам манипулирования в реальном мире.
🔄 Метод MimicPlay обучает роботов навыкам манипулирования, используя видеоряд людей, взаимодействующих с окружающей средой, что позволяет роботу учиться на небольшом количестве демонстраций и значительно превосходить современные методы имитационного обучения в отношении успешности выполнения задач, способности к обобщению и устойчивости к помехам.
INFO—PAPER
Дальше немного философского текста
😮 Детские игрушки с которыми обучаются новые методы в робототехнике выглядят очень интересно — это напоминает обучение обычных детей, и переходя к обучению детей, лучше обучаются дети в уникальных и интересных игровых площадках и имея качественную информационную базу.
Недавно в твиттере написали: Я не могу дождаться, чтобы тренировать сильный ИИ в своем гараже. Отсылая нас к примерам создания компаний Apple, Google и иных IT гигантов. Ты заставляешь своего ребенка жить в гараже?
Для создания действительно сильных нейронок нужно строить огромные экосистемы, где будет происходить обучение. И чем лучше виртуальные миры будут похоже на наш мир, тем лучше и сильнее будет обучение. При этом похоже сильным нейронкам нужно будет развлечения с обучением, чтобы лучше усваивать информацию. А еще особенно приятно видеть это развитие в нейронках так как много лет своей жизни я изучал воспитание людей и наблюдал за обучением детей работая батутным тренером и вожатым в детских лагерях. Похоже в ближайшее время эти навыки вновь пригодятся для работы с маленькими и неуклюжими, но очень способными сетками.
ControlNET прекрасно работает с текстом
Генерация от @too_motion
Подробный урок на его каналеА я пока сильно ударился в код, и кайфую с этого, особенно с помощниками нейронками, потому посты редкие сейчас
Воскресный дайджест в понедельник
🔥 ControlNet - дообучение с новыми слоями поверх SD 1.5, который полностью меняет подход к img2img, теперь можно контролировать карту глубины детальнее, позу, карту нормалей, края объектов на изображениях, сегментацию изображений для контроля объектов при генерации и их положений и много еще.
❤️ Так же можно контролировать и смешивать эти подходы. Уже сейчас появились варианты использования для улучшения стабильность AI анимаций. Но кажется все еще впереди.
📕 Теперь можно создавать клипы с контролем действий персонажа, а как известно в SD 1.5 мы можем дообучить на своем датасете. Использовать простые сцены из Блендера, как основу локации и много еще крутого!
PAPER—GITHUB—WEBUIforAUTO1111
😶🌫️ Редактор поз для ControlNet. Создание любых поз и так же любого количества персонажей в сцене.
GITHUB—DEMO
😳 UV texture map через ControlNet. Здесь прям обучалка как создавать очень крутые UV текстурки через ControlNET. Надеюсь скоро добавят прям в Blender к Dream Texture.
LINKУ меня пока не было время оценить все возможность, но ТожеМоушн уже провел небольшой стрим про ControlNet,
вот запись стрима.
Ожидаем всплеска новых пайплайнов для анимаций, кажется GEN-1 уже не такой желанный.(Но потыкать его еще хочется)
Журнал Time поместил на обложку скрин с ChatGPT, и написал статью где говорится примерно следующее:Гонка ИИ набирает обороты и технологические компании бегут, чтобы создать все более продвинутые и мощные модели ИИ. Однако все большая зависимость от ИИ вызывает опасения по поводу потенциальных рисков, включая монополизацию глобальной экономики и существенные угрозы человечеству.
Несмотря на усилия по обеспечению соответствия ИИ человеческим ценностям, многие считают, что нужно сделать больше, чтобы решить проблемы ИИ и предотвратить будущие катастрофы. Хотя потенциальные выгоды от ИИ огромны, важно, чтобы мы подходили к его разработке с осторожностью и приоритет отдавали безопасности над прибылью.
Короче говоря, статья предупреждает о рисках, вызванных все большим интегрированием ИИ в нашу жизнь и потенциальных последствиях создания ИИ, который будет более мощным, чем человек.
Порыв к развитию ИИ вызван перспективой огромных прибылей, но поскольку компании приоритетно относятся к скорости вместо безопасности – растет беспокойство о том, что корпорации могут создать чудовище, и это может привести к катастрофическим последствиям.
Хотя развитие ИИ имеет потенциал переосмыслить нашу жизнь по многим аспектам, важно, чтобы мы адресовали риски и принимали осторожный подход к его развитию.
Я подумал, что будет иронично, если сначала краткое содержание статьи сделает ChatGPT, а потом это краткое содержание на английском, я подам на вход в другую GPT нейронку, доообученную на моем телеграм канале – в общем, все что серым, написало нейронка, якобы в моем стиле, но я что-то не вижу тут тупых шуток, да и слог хромает, так что продолжу эксперименты.
#Нейропост_v01
Gen-1 генерации невероятно красивые
Доступ к новой сетки я жду с таким же нетерпением, как доступ к Dalle 2(А помните как все хотели ее потестить год назад?)
Это все же новый подход в генерации видеоряда, пока нужен референс для генерации, но какое же видео на выходе!
В посте работа Paul Trillo, где он использует Nerf генерации совместно с 3d рендерами как входящие видео, смешивает с рефернс картинками космоса и получает такое красивое безумие!
вау! получай еще один колаб для стилизации видео с помощью Instruct pix2pix. автор прикрутил к нему Эбсинт (!) для получения более гладкого, консистентного результата
твиттер автора
colab notebook IP2P Video w/ Coherence Guidance
за наводку спасибо Нейросети и Блендер
@тоже_моушн
Simpsons intro через GEN-1
🧍♂️ «Симпсоны» в стиле экспериментальной кубистической покадровой анимации. Продолжая традиции разноформатных интро для Симпсонов.
😭 Анализ ролика показывает, что на данный момент GEN-1 явно имеет ограничения в длительности генерации, поэтом стилистика видеоряда в интро скачет.
🥶 Эта проблема разделения на две части задач по видео нейронкам: передача нового стиля для видео и понимания что происходит в видео. В GEN-1 проблему движений решили дополнительным датасетом Davis в 6.4 миллиона видео в дополнение к 240 миллионам изображений. PAPER
Автор интро: Paul Trillo
Gif2Gif
🐱 Расширение для Automatic1111 позволяющий редактировать гифки через текстовую подсказку на основе InstructPix2Pix, сразу добавлю - качественно выходит 1 из 5 в среднем генераций. Но пока хорошая замена в ожидании GEN-1.
🐑 Недавно тестил на больших размерах и сделал клоуна медведя, анимация получилась похожий на стиль Cyriak
INFO—GITHUB
InstructPix2Pix генерация с видеоОригинал vs результат
☺️ InstructPix2Pix с промптом: "Make it a bronze sculpture."
📕 Так же использовался RunwayML для matte маски, чтобы отделить ноги от пола и затем вновь добавить на оригинальную генерацию.
🐱 Все остальное - результаты диффузии с добавлением небольшого свечения!
Автор генерации.Для установки в Automatic1111 теперь можно просто скачать
чекпоинты и подгрузить их как модель, а дальше использовать привычную вкладку img2img
Ночная новость
ChatGPT похоже помог OpenAI получить больше финансирования, чем SpaceX и даже Tik-Tok(ByteDance)
Теперь кажется любое упоминание ChatGPT будет связано с привлечением внимания и средств. Как пример, пост эйай ньюз про заполонившие ролики с минимум конкретики в youtube про ChatGPT.
И хочется добавить: нейронки не решат всех ваших проблем, они только помогут облегчить жизнь и автоматизировать некоторые нудные задачи, чрезмерное употребление нейронок влияет на реальность.
Употребляйте в меру и с критическим мышлением
ИнфоСинтез звуков и музыкальных композиций
🐑 Прошел только месяц 2023 года, а для нейросеток по звуку уже создали timeline, здесь собираются ссылки на статьи, код и даже демо.
🌍 Больше всего впечатляет MusicLM, о нем уже говорил раньше. Интересно, что всего 5500 пар текст-звук, позволили создать хорошего качества нейронку, если судить по демо кускам на сайте.
🔄 Вот вам ссылки на доступные DEMO проверить самим:
Msanii: High Fidelity Music Synthesis on a Shoestring Budget
DEMO
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
DEMO
Github подборка
Вчера у меня был урок английского, где мы с преподавателем читали про AI-редакторы видео. Там в целом говорилось про относительно простые (в 2023м!) вещи вроде накладывания фильтров, выравнивание цветокоррекции, добавления сгенерированной озвучки выбранным голосом.
Сегодня я увидел это.....
https://dreamix-video-editing.github.io/
Перейдите в проект, посмотрите демки. По видео и текстовому промпту видео перерисовывается - можно просить добавить или убрать объекты, заменить, и всё это на Видео-диффузии.
Интересный процесс создания видео из уже знакомых инструментов
🤫 Пока это все проделано вручную, идея восхитительная!
🔄 Paul Trillo поделился новым видео и оно прекрасно, а когда я увидел процесс еще больше заинтересовался, все инструменты давно известны, а вот их порядок использования я еще ни разу не встречал!
🔥 Видеоряд с самолета —> NERF 3D сцена и создание нового пути камеры —> Обработка полученных кадров через SD для повышения реалистичности —> Использование SD img2img, и затем полученные кадры как ключи в EbSynth для создания невероятной плавности.
😱 RunwayML для создание маски видеобъектов —> Быстрый монтаж объекта в сцену в After Effects —> SD img2img для превращения объектов в облака —> Ebsynth поверх для плавности кадров даже заметно как закатный свет появился на облаке-руке
По итогу невероятное видео, в комменты добавляю процесс создания.
ChatGPT в массы!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
Небольшая подборка AI аддонов для Блендера
😳 OpenPose для Блендера с настройкой толщины костей, а так же есть руки и ноги для canny режима, больше никаких кривых пальцев в генерациях. Так же добавлена карта глубины и KeyPose для режим T2I-Adapter
GUMROAD(можно скачать бесплатно, можно выбрать свою цену за продукт)
☺️ ECON похоже на уже известный ICON. Генерация 3D меша персонажа с одеждой из одной фотографии. В отличие от ICON может вытаскивать группу людей и намного лучше качество генераций меша. Использует библиотеку поз SMPL-X. Идет сразу с аддоном для Блендера. (Правда потребуется RTX2080+ 8+гб карты и 40 гб свободного пространства)
INFO—GITHUB—COLAB—GUMROADКажется это только начало огромного количества нейроаддонов для Блендера
Новый дайджест за неделю
🍎 Новая технология Memory-Efficient Radiance Field (MERF) обеспечивает рендеринг крупномасштабных сцен в браузере в режиме реального времени, одновременно уменьшая потребление памяти, обеспечивая фотореалистичное качество синтеза NERF. Оптимизация уже всем известного NERF.
INFO—PAPER—DEMO
🔄 Composer - новая модель от Алибаба, которая позволяет гибче работать с входящим изображением, композицией, картой глубины, скетчами и палитрой. Как ContolNet, но с дополнениями. Пока без кода и претрейн моделей.
INFO—PAPER—GITHUB(там будет код и модели)
📕 Fromage модель, которая может обрабатывать произвольно чередующиеся входные изображения и текст и создавать выходные изображения и текст. Иногда получаются очень мемные результаты.
INFO—PAPER—GITHUB—DEMO
😳 ControlNet обучалки на английском:
MultiControlNet - хорошая обучалка по ControlNet в Automatic1111
LightControl - как управлять светом в ControlNet в Automatic1111
🐱 ControlNet Video. Демка для изменения видеоряда через ControlNet, на вход даем референс видео, добавляем текст и получаем видео генерацию. Работает достаточно шустро, так как демка на A100.
DEMO
🐑 CLIP Interrogator extension for Auto1111. Теперь разбирать картинки на промпты можно не выходя из Automatic1111
GITHUB
❤️ Пара интересных колабов от @mlart:
Нодовая система в колабе для SD
Меняем интерьер через ControlNEtПревью от данного
Автора, использовался NERF + SD + EBSYNTH поверх, в итоге кайфовый новый эффект.
🥶
Кстати, SD 3.0? В марте?
GEN-1 и малобюджетная анимация
☺️ Karen X. Cheng показала как из подручных средств дома создать интересный анимационный ролик с помощью GEN-1(пока в закрытой альфа)
В комментах еще небольшой видос про процесс. Анимация станет намного доступнее!
Дайджест по творчеству
🤫 Основной дайджест выйдет завтра, коротко — ControlNet, InstructPix2Pix перевернул всю AI анимацию за одну неделю, генерации стали стабильнее в разы! Есть позы, края, карты глубины новые ууух
😡 Хотелось бы показать несколько интересных работ, которые вышли в СНГ пространстве на этой неделе в клипах:
🔥 У Славы Мэрлоу вышел клип на трек О2, и там похоже использовался videoinput и интерполяция.
КЛИП—AI ARTIST
🔥 OFFMi - Найду. Здесь приятный videoinput с масками. И сцены хорошо вписаны в стандартный клип.
КЛИП—AI ARTIST
☺️ И вышло со мной интервью, где я общаюсь про нейросети с продюсером кинопроизводства Светланой ЛауройИнтервью было записано достаточно давно. Многие вещи поменялись, стали намного круче, качество генераций улучшаются стремительно!
Хотя всю неделю ковырялся в коде, теперь прям все новые инструменты дико замотивировали поделать новых нейроанимаций.
ControlNet хорош!
☺️ Позволяет не только делать более подробные позы и контролировать положение персонажа, но еще и в мемы можно, пальцев было много в генерациях?
😳 Теперь сетки могут генерить и ног больше и рук и даже голов! Кайф!
🐱 Это все работы toyxyz у него в твиттере еще много всего интересного про ControlNet, мне особенно нравятся связки с Блендером.
🧑🎓 Вот Automatic1111 addon и конечно ждем вскоре Блендер addon.Уверен будет Open Pose для Блендера c возможность анимации, а некоторые уже перенесли
normal генерации ControlNet в Блендер.
Джим Керри в Том Круза
🍎 Через новый аддон ControlNet для Automatic1111 TomLikesRobots сделал более стабильную анимацию с изменением лица.
😶🌫️ Использовался img2img и модель Canny Edge Detection в ControlNet.
🥳 Сейчас развиваются сразу несколько одновременно подходов (InstructPix2Pix, ControlNet, Gen-1) для создания стабильных видео нейронок и это хорошо!
Дайджест за неделю
👍 Google vs Miscrosoft. На этой неделе много новостей о провальной презентации Google, где ожидалось представление невероятного конкурента ChatGPT, но на выходе получили сырой продукт, который и потестить сложно.
Не понятно зачем так поспешили с анонсом, все же Google имеет мощные статьи и ресерч, но с выводом на продуктовый уровень своих трудов Google явно имеет огромные проблемы.
В этом абсолютная победа OpenAI и Microsoft. К слову о Google, кажется ребята смотрят на несколько шагов вперед, хорошо что OpenAI может позволить себе навести суету в огромной корпорации. Теперь начинаются первые AI войны за лучшие инструменты для пользователей. Пользователи от этой битвы будет только в плюсе.
📕 OpenAI стали предлагать подписку на ChatGPT, без очередей и без падений модели всего за 20$ в месяц, на выбор есть две модели: Быстрая модель и стандартная. Приобрел себе подписку для этой новости, чтобы сказать что внутри.
🍎 Img2img на этой неделе преобразился аж тремя новыми моделями на основе SD:
🔥 Pix2Pix - Zero-shot - выглядит максимально автоматизировано и кажется Pix2Pix модельки будут отлично в будущем совместно с BLIP2-разметкой заменять промпт инженеров. Еще раз метод не требует текстовых дополнений или файнтюна модели, а результаты сравнимы с Dreambooth генерациям при затрате Dreambooth больших ресурсов и времени.
INFO—GITHUB—DEMO
🤫 PnP-diffusion. Схожая модель основанная на возможностях предварительно обученного текста. Модель создает img2img соответствующую целевому тексту, при сохранении структуры исходного изображения.
INFO—PAPER—GITHUB—EXAMPLES
🐑 ControlNet. Использую разные методы создания краев объекта улучшает контроль структуры исходного изображения, вариантов поиграться много, в Github много примеров и подробное описание.
INFO—PAPER—GITHUB—DEMO—COLABПревью - генерация из Midjourney, получилась неожиданно, как артефакт в подборке реалистичных пейзажей
Disco Diffusion —> Midjourney v4
📕 Хотелось бы рассказать про Disco Diffusion, он до сих пор доступен в Midjourney, если выбрать --v 1, этот алгоритм с улучшенными дополнительными промптами стал доступен для бета теста 5 марта 2022 года, примерно в то же время, как вышел Disco Diffusion v5.
😳 Тогда было мало инструментов для img2text и в целом коммьюнити первое время вручную добывало интересные промпты, при среднем времени 10-20 минут на одну генерацию, этот процесс мотивировался лишь одной мыслью, что такая красота получается через перемножение матриц, текстовой подсказки и видеокарты, которая просчитывая всё это делала бррррр....
🧐 Иногда хотелось создать анимацию и тогда вкладка в колабе не закрывалась по два-три дня, а на выходе получалось 10 секундное видео, ВОУ, особенно спустя год это выглядит очень, очень медленно.
🫥 Дискорд и твиттер составлял основу поиска информации о том как генерить, какие настройки ставить и так же поиск интересных промптов или новых художников для генерации, а когда получилось создавать свою связку, то хотелось сразу показать результаты остальным.
🥳 И это все было лишь год назад, с этого времени кажется что прошло еще 2 артовые революции, хотя и тогда я бегал по всем кафе и заведениям в городе показывая работы и говоря о том, что грядут невероятные вещи в искусстве (напоминает городских сумасшедших?)
😶🌫️ Сейчас многие из тех энтузиастов занимают должности в Midjourney, Stability AI или стали уже известными AI художниками. Но мне кажется все это только начало, нас ждет безумие в видео нейронках, 3D нейронках и в нейронках симуляции мира. Каждый из этих этапов будет переворачивать медиа и привычные взгляды на жизнь и работу.
Вот такой получился пятничный пост.Промпт:
an ultrafine detailed painting of cloisonnism::2 + art by Ji Sheng + art by Cheng Shifa + art by Li Gonglin + art by Fu Baoshi + art by Wuzhun Shifan + modern european ink painting + naive art + fantasy art + art & language + traditional chinese watercolor + traditional chinese ink painting
Читать полностью…
Prompts made easy (PEZ) — это оптимизатор градиента для текста. Он может преобразовывать изображения в подсказки для стабильной диффузии или может выучить жесткую подсказку для задачи LLM.
Метод использует идеи из литературы по бинарным нейронным сетям, которые объединяют непрерывную и дискретную оптимизацию.
Подходит не только для точного получения промпта, кстати формат их иногда получается такого вида: 📍🐯alecoscino 🌸 florcolorful alley 🌺
Но и для оптимизации промптов.
Нейминг кстати вдохновлен отPez
упаковки с конфетами, прям детство вспомнил...PAPER—GITHUB—DEMO Читать полностью…
RunWay ML выпустили Video-to-Video
RunWay ML - стартап, который можно описать как Голливуд для бедных (с AI и другими радостями машинного обучения) - выпустили нейросеть, которая может стилизовывать видео. И что круто, без всяких подергиваний и кислотного трипа.
Модель называется Gen-1 (про нее рассказывают начиная с 38 секунды видео), что намекает нам на то, что со временем качество будет только улучшаться. Пока модель в бета-тесте, подать заявку на ее использование можно тут.
🎥 Сайт продукта
Дайджест за неделю про нейронки
👍 Dreamix - продолжение многих уже известных моделей, например, InstructPix2Pix, Dreambooth, Text2Live и других text2video моделей, при этом плавность и качество анимации поражает. Есть даже возможность подгружать свои картинки для дообучения модели. Пока без кода и для такой красоты, как в примерах явно нужны большие предобученные модели. Смотрю в сторону этих моделей очень внимательно, кажется новая компания по типу MIdjourney вырастет именно благодаря встраиванию в продуктовую версию text2video.
PAPER—INFO
🧑🎓 BLIP-2 - интересная Img2text модель, позволяющая кроме создания описания изображения еще и задавать вопросы про изображение.
PAPER—GITHUB—DEMO—COLAB
🚗 SceneScape - с помощью карты глубины и inpainting модели позволяет генерировать долгие залипательные анимации.
PAPER—INFO—EXAMPLES
Схожая технология на SD v2.1, есть DEMO
💪 UNIPI - созвучно с пирогом, проект для text2motion для роборук, в авторах ребята из Google Brain, MIT, UC Berkeley. В статье примеры выполнения заданий роборуки от текстовых подсказок, как в симуляции, так и в реальных тестах на бытовых вещах.
PAPER—INFO
🙏 Tune-A-Video теперь имеет подготовленные предобученные модели на анимациях, напоминает textual inversion библиотеку, где сейчас можно найти интересные ембеды для SD. Данные библиотеки, как раз помогут для созданий датасетов моделей text2video.
LIBRARY
🧐 У @too_motion вышло очень качественно видео про автоматизацию анимации в Deforum используя математику или положение камеры через Блендер. Уровень для продвинутых.
LINK
Бесконечный twitch стрим на нейронках
💎 В превью одна из сцен нейроситкома NOTHING, FOREVER на twitch канале
🔄 В сериале всего несколько сцен, 4 персонажа и закадровый смех. Еще микроволновка, которую я обожаю.
🍎 Сцены длятся не долго и текстовая часть построена на GPT-3, но уже имеет базу фанатов в официальном дискорд канале и кажется сериал становится популярнее и популярнее.
😳 В основном кринж с ноткой ностальгии по сериалам из 90х. Но идея и исполнение супер крутое, с учетом, что возможно обновлять контент и задавать тематику в реалтайме.
🌟 2023 кажется будет безумным в плане нейронок для автоматизации медиа.
Сцену в превью взял отсюда.
Сериал.
Официальный дискорд.
Tune-A-Video🔒
Эмоциональное: Пытался запустить алгоритм еще с момента неофициального кода, и уже 2 недели ковырялся в коде и...
🔄 Вышел официальный код Tune-A-Video, позволяющий создавать text2video с референс видео
INFO—PAPER—GITHUB—DEMO(только, если арендуете A100 на HF)
🔄 Коротко как работает: Разбираем видео на кадры, затем дообучаем на этих кадрах нужную SD модель(Да-да, ваши Dreambooth модельки спокойно прикручиваются)
, вытаскиваем кадры с новым промптом. Тем самым есть запоминание движения и персонажей, при этом окружение и стилистику можно менять!
На данный момент это не продакшн генерации, а вот мемов понаделать, уууух
😐 По ресурсам: Требуется больше 24 гб памяти для обучения модельки, в среднем 512x512 8 кадров видео файнтюнится за 10 минут(!)А на превью сделал танец в разных стилистиках, и как же я рад, что спустя 2 недели появился адекватный результат генераций.
Дайджест за неделю про нейронки
😳 Google music research
Новый анонс от Google Research, позволяет от текстового запроса создавать сложный музыкальные композиции, а так же превращать картинки в музыкальные композиции и много еще интересного. Ссылка на демо генерации.
🔄 AUTOMATIC1111 в фотошопе
Еще один плагин для фотошопа, который использует Automatic1111. GITHUB
☺️ TextTO3DVideo
Интересный новый алгоритм, позволяющий генерировать 3D видео от Meta AI.
🐱 Luma AI и генерация textTO3d
Пока пускают волнами, в скором времени обещают выдавать людям в waitlist. Анонс
💖 IF img2img and inpainting
IF от Deep Floyd пока находится в альфа тесте, при этом новый анонс показывает все больше возможностей новой модели, которая прекрасно генерит и текст в артах. Инфо.
🐑 InstructPix2Pix for Automatic1111
Уже нашумевший InstructPix2Pix теперь доступен как WebUI в Automatic1111. Подробнее.