Экспериментируя с моделью #DeepFloyd (которая, напоминаю, умеет в текст) я подумал: “Блин, это же отличный инструмент для Lyric video!”. И сделал тест — первый куплет The Smiths - There Is a Light That Never Goes Out. Хотел передать ощущение от трека, когда едешь немного пьяненький (как пассажир) в машине и засматриваешься на вывески и огни ночного города. Ссылка на ютуб, если вдруг хотите пошерить со знакомым клипмейкером вне Телеграма.
Читать полностью…Hexplane - это новый подход для представления динамических трехмерных сцен, который быстрее и эффективнее, чем текущие методы.
Он представляет собой 4D -сетку пространства -времени с использованием шести плоскостей функций, которые используются для вычисления вектора объектов для каждой точки в пространстве -времени. Этот вектор функций затем передается в небольшую нейронную сеть, называемую MLP, которая предсказывает цвет точки. При таком подходе Hexplane может соответствовать качеству изображения предыдущей работы, но с гораздо более быстрым временем обучения.
🔧 Hexplane предназначена для общего представления, которое можно использовать в широком диапазоне задач пространства и динамических трехмерных приложений.
🔬 Были проведены обширные тесты, чтобы исследовать свойства Hexplane и выявить ее интригующие свойства.
📷 Результаты синтеза с использованием HexPlane в качестве представления в наборе видео-данных с Plenoptic с использованием как тестового представления, так и виртуальных траекторий камеры, которые набор данных содержит видео с высоким разрешением с сложным содержанием и визуальным внешним видом.
🚀 Текущий метод на основе MLP требует более 1400 часов обучения в GPU для одной сцены, в то время как метод Hexplane обучает в течение 10 часов с таким же качеством.
INFO—PAPERОригинальный текст закинул в chatGPT и попросил суммаризировать с emoji =)
Геометрические ноды + машинное обучение
☺️Cartesian Caramel создал простейший мл генетический алгоритм по поиску пути с эпохами, но при это не подключая иные библиотеки и только используя геометрические ноды в Blender 3.5!
В целом Blender хорошо приспособлен к подключению стандартных python библиотек и даже спокойно работает с претрейн моделями, но автору было скучно😳 и он решил сделать такое безумие.
Новый проект — #НейроЖЭК. Обучил #StableDifussion на самом народном паблик арте. Часть первая, героическая (Шрек — как бонус).
Читать полностью…Небольшой дайджест начала недели:
🔥Mcdonalds совместно Karen X. Cheng и Luma AI с технологией Nerf сделали крутой коммерческий ролик. Кстати над фильтром в Инсте работал Денис.
Я добавил немного постпроцесса, камера анимировалась уже в созданной 3d сцене, как в примере из прошлого дайджеста.
💻Photoshop + плагин для SD AUTOMATIC1111, плагинов для PS существует много, но у этого есть опенсоурс код и крутая возможность адекватно подключаться к colab, копируете ссылку и все вычисления на арендной карте.
Github
🔄Composable Diffusion Models позволяет генерировать теперь и 3D объекты, его совместили с Point-E
Есть демо!!!
INFO—DEMO
если ты используешь для анимации дефорум, давай подскажу как делать это еще эффективней и интересней) понадобится блендер и пара скриптов для экспорта анимации в понятный дефоруму формат ключей
первый - для превращения звука в кейфреймы. гайд от автора
второй - для экспорта анимации камеры (чума!)
в комменты положу еще примеры того что получается с 3д камерой
@тоже_моушн
Отключение электричества от урагана дает свои плюсы:
Вчера пришлось перенести основную работу на ночь и попал на Open Hours с David Sholz основателем Midjourney и вот какие интересные вещи он рассказал:
🚽Slow mode тратит невероятное количество GPU часов, потому количество одновременных работающих сеансов не будут увеличивать (сейчас это 12 одновременных генераций за подписку в 60$ в месяц)
❤️Логотип Midjourney, лодка с парусом, не просто так: Это изображение вас плавающих по колоссальному латентному пространству в поиска красоты.
David очень беспокоится, что нейросети представляются роботами, которых ты заставляешь работать и видит иную философию в генерациях, скорее это бесконечное путешествие с попутчиком за новыми открытиями, чем рабское использование машин. ("робот" - само слово происходит от чешского слова «робота», или принудительный труд крепостных. Его славянский лингвистический корень «раб» означает «раб»)
Взял из этой прекрасной статьи
🐈⬛Midjourney на данные момент испытывает кадровый голод, есть средства, но нет ресерчеров и разработчиков хорошего уровня для создания новых моделей вне Text2image, хотя желание есть.
😳Генерации важны, а скорее даже безумный, более креативные генерации имеют огромную ценность для midjourney, например, одна из идей нанимать лучших пользователей для до обучения основной модели.
🌎В скором времени будет доступна подписка на год, для тех кто оплачивает криптой, раз в год, это похоже спасение.
«Нейросеть нарисовала», «так нейросеть увидела», «создано в соавторстве с искусственным интеллектом» постоянно повторяется в заголовках популярных пабликов и в СМИ.
С одной стороны радуюсь, что страх перед нейросетями отступает, работы коллег видит аудитория, а продюсеры задумываются о работе с ИИ.
Но с другой, мы двигаемся к восстанию машин и господству ИИ, игнорируя факт, что у работ, созданных с помощью ИИ есть яркий человеческий след. Если вы думаете, что его нет, сядьте за компьютер и повторите яркие и качественные кейсы, которые вы видели в интернете просто «прося нейросеть нарисовать».
Работа с нейросетсями обесценивается творчески, по этой причине отключается любопытство, интерес к процессу, самообразованию. Каким-то загадочным образом при этом нейроарт становится «сакральным знанием», которое может быть «дано» и «непонятно». То есть если мы убираем из этого процесса другого человека, мы автоматически закрываем потенциал и для своих будущих экспериментов.
На фотопленке после щелчка затвора образуется «скрытое изображение», однако никто не называет камеру соавтором кадров. Хотя в латентное пространство нейросети (созданное и отобранное людьми), проще заглянуть, чем понять природу появления скрытого изображения. Фотограф не контролирует ни ионы серебра, ни пиксели, так почему нейроартистам нужно отказывать в признании их творческого труда?
В 2000-е ходила такая шутка. Хозяйка обеда, на который был приглашен фотограф сказала: у вас такие потрясающие снимки, наверное, у вас хорошая камера. А фотограф ответил: спасибо за обед, было вкусно, наверное, у вас лучшие кастрюли.
Да, сегодня нейросети хорошо обучены и работают стабильнее с каждым днем. Но не стоит забывать, что мы и сами у себя талантливые и думающие.
Я как технократ все время призываю к вниманию к ИИ. Но сейчас я хочу обратить внимание на Человека, который программирует, придумывает, реализует. Начнем год с уважения друг к другу. Ведь в конечном итоге, такие цели и ценности как добро и реализация творческого потенциала у нас общие.
Бесконечный зумаут в Stable Diffusion v2 от Hardmaru
Кажется в отличие от схожих видео из Dalle 2, этот процесс полностью автоматизирован, и возможно Hardmaru поделится колабом.❤️Github
ну что, готовы к продвинутой интерполяции?
не ограничивай себя статичными генерациями! возьми уже наконец свои seeds и prompts, расположи в красивом порядке и сгенерируй плавную* анимацию в новом колабе!
colab notebook
*плавную насколько это возможно
@тоже_моушн
Из последовательности движений человека новый алгоритм SUMMON синтезирует физически правдоподобные и нужные для сцены объекты.
SUMMON также дополняет сцену вещами, которые не соприкасаются с человеком, но уместны для этой сцены.
Интересный подход к созданию 3d сцен, ещё интереснее будет дополнять генерацию движений через текст.
Github.
Paper.
Доп видео.
Оу, гитхаб с крутыми ChatGPT промптами
Для лучшего результата для ChatGPT промптинг так же важен, потому готовые формы текста не помешают.
😳Github
Katherine Crowson создает новые безумные модели, в данном случае используя алгоритм Karlo, основанный на OpenAI's unCLIP архитектуре и соединив со своим недавним колабом.
256х256 видеоряд выглядит сейчас совсем вроде уныло, НО
"No prompt, just using the Karlo prior and aesthetic guidance to random walk around aesthetic areas of CLIP image embed space"
Здесь нет промпта для создания этого видео, только благодаря приору и эстетику рандомное блуждание по эстетичному пространству CLIP.
Для простоты, возможно меня поправят, это как попросить свое воображение создать красоту по памяти самых прекрасных моментов , вывести из воображения видео и показать всем.
И оно будет действительно эстетически приятное многим.
📕Промпт инженерам посоветую поскорее переучиваться уже в новые актуальные профессии.
А еще это означает, что работа по text2video нейросеткам у StabilityAI идет полным ходом.
Это автор канала, когда вновь ChatGPT сделал всю работу.
А на самом деле это depth2image генерация поверх танца в SD.
Автор генерации
Нейродайджест за неделю (#4)
🖼 Google Research представил свою Text-to-Image модель Muse
Модель обучается по текстовому эмбеддингу из предобученной LM предсказываиб маскированные токены изображения. Главная фишка Muse - это скорость генерации изображений: Muse на порядок обходит Imagen и LDM.
🧔3D Avatar Diffusion
Майкрософт выпустил диффузионную модель, которая способна построить 3D аватар по одной фотографии человека.
🙈 Нейросеть от Tencent Different Dimension Me превращает фото в аниме
[Немного треша в посте]
🎱 Очередная Yolo, уже V8
Авторы из Ultralytics проведут онлайн-семинар, посвященный новой версии, 24 января на YouTube
🕵️♀️ Художники подали в суд на Stability AI и Midjourney за нелицензированное использовагие их работ
[Прыгнуть на пост]
👨🎨 InstructPix2Pix: Редактор изображений с помощью текста от исследователей из Беркли на базе диффузионных моделей (с кодом и демкой) [Подробнее]
☠️ Лэйофы в индустрии: Google увольняет 12 тысяч сотрудников, а Майкрософт 10 тысяч.
❱❱ Читать нейродайджест #3
@ai_newz
Обучение с подкреплением и обратной связью с человеком (RLHF)
👌Пока в OpenAI токсичные генерации размечались работниками из Кении за 2$ в час, чтобы сделать ChatGPT менее токсичным. СтатьяДля Кении 2$ в час - прекрасная зп.
💎Тем временем Cloudflare размечает картинки через hCAPTCHA, кстати, уже писал про усложнение каптч. Похоже эти картинки уже сгенерированы, но требуют RLHF, для улучшения качества генерации.
И тут видна проблема больших моделей, и что человеческий фидбек сильно важен для качества моделей.
Нужны датасеты с качественными и полезными данными и адекватная разметка этих данных. В оригинальном
посте, автор предполагает, что это разметка для Гугла, но Гугл использует
reCaptcha, а на скринах hCaptcha, хотя возможно Cloudflare просто выполняет заказ на разметку через hCaptcha.
Так как пруфов нет, мы отнесем все это к догадкам.
InstructPix2Pix
Фотошоп через текстовый запрос.
Попробовал на своей работе, работает отлично!
INFO—DEMO—Github
Diffuser info
Взял отсюда инфу.
Выкатили демку Image Mixer
Будем посмотреть, насколько она далека от MidJourney
Тыкать тут
@derplearning
3D Avatar Diffusion
Майкрософт выпустил диффузионную модель, которая способна построить 3D аватар по одной фотографии человека. Да, он не супер реалистичный получается, но выглядит опрятно.
На вход одно фото (!), то что слева, и текстовое описание. А на выходе модель дает tri-plane репрезентацию 3D объема головы человека, которая декодидируется в radience field (типа как в NeRF) и рендерится. Архитектура очень занятная, и позовляет еще и редактировать как аватар будет выглядеть с помощью изменения текстового промпта, подаваемого на вход. За всеми деталями отправляю вас в статью.
❱❱ Сайт проекта
❱❱ Arxiv: Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion
@ai_newz
Дайджест по нейронкам для дизайна и арта:
🌻 Latent Blending позволяет сделать красивую интерполяцию через латентное пространство между двумя генерациями из SD. Идеально для обоев
Github — Colab
эмодзи кстати как раз с примером latent blend😡 Laan Labs использую NeRF для создали эффекта Bullet Time на свадьбе друга. То есть эффект, как в матрице теперь достигается на 1000 камер, а всего лишь слоймоушн видео через Айфон и далее созданием видео сцены в Nerf, видеопример в комментах.
The Chainsmokers x Cheyenne Giles - Make Me Feel
Клип сделанный на алгоритме WarpFusion от Derp Learning.
😶🌫️На танцах приятнее всего видеть этот эффект, а черный фон не отвлекает от череды генераций на танцоре.
Кайфовое применение эффекта.От уже многим известного Remi Molettee
а вот и гайд - очень короткий и очень насыщенный - о том как пользоваться новым колабом для анимации stable diffusion
colab SD smooth interpolation
@тоже_моушн
Box2Mask: Сегментация объектов под контролем Box с помощью Level-set Evolution
В отличие от полностью контролируемых методов, использующих попиксельные метки масок, сегментация экземпляров с контролем блоков использует преимущества простых аннотаций блоков, которые в последнее время привлекают все большее внимание исследователей.
С практической точки зрения новый алгоритм поможет не только качественней размечать видеоряд, но и через текст влиять на определенные вещи в видеоряде, заменять, вырезать или иначе редактировать.
☺️Github
📕Paper
Основан на данных алгоритмах: Discobox от Nvidia, AdelaiDet, MMDetectionЖду приложения, где можно будет в видеопутешествие по городу заменять светофоры на Тоторо так же быстро, как это идея возникла в моей голове
Похоже IF в скором времени покажет генерацию текста и лучше понимание текста для генерации
Емад(основатель StabilityAI) делится небольшими анонсами сразу после МишинЛернинг
IF
📰 В The Neuron Daily статья про то, что, вероятно, нас ожидает новая модель!
Дальше перевод статьи источника The Neuron Daily:
***
Это просто совпадение или какое-то дружеское соревнование?
Вчера мы говорили о новой text2image модели Muse от Google . Небольшая деталь, которую мы не указали: на странице их проекта изображения, на которых написано «Muse».
Исследователи подмечают, что Muse отлично генерирует изображения, содержащие текст. С чем, кстати, не справляются ни DALL-E 2, ни Stable Diffusion!
Сегодня в твиттере появлись несколько картинок, которые намекают: «Смотрите какой сложный текст мы можем генерировать».
Выводы: Скорее всего, это новая модель под названием IF (см. правый нижний угол изображений), разработанная новой лабой DeepFloyd .
Некоторые надеются, что это еще и долгожданная «дистиллированная» модель, способная ускорить генерацию изображений в 20 раз. Это тоже была одна из центральных тем Muse!
Наконец, Stability AI — это Stability AI .
Пока ничего официального, и мы можем ошибаться. Мы вернемся, когда у нас будут новости о IF и DeepFloyd.
***
мишин лернинг
Иногда я провожу стримы на твиче и люблю просто погенерить арты или поделать красоту в Блендере, для этого я создал отдельный канал.
Туда же мне хочется еще добавить не основную инфу, недоделанные проекты и ресерч.
В общем fun, fails, streams и сплетни с полей нейронок хочется закинуть в более маленький канал, а здесь оставить только уже проверенный качественный контент, уроки, новости, красивые генерации и анонсы.
Вышел Deforum v0.7
Много новых настроек, особенно для работы с масками в 2d и 3d анимациях, так же решены некоторые проблемы с video input и init image.
Целый лист изменений похоже будет попозже объявлен.
Тем кто хочет поизучать самостоятельно многие параметры: Гайд по настройкам в v0.6
Колаб
Лист измененийКартинка из midjourney
, промптом поделюсь позже