И ещё одна новость про #midjourney. И она супер.
Добавили свой img-to-text!
Кто не знает — это когда вы загружаете свою картинку и на выходе получаете промт, то из чего она состоит. Это очень полезно, когда нужно деконструировать какой-нибудь визуал, чтобы собрать из его частей новый. Мало того, MJ выдает сразу четыре промта + по ним сразу же можно сгенерировать новое изображение.
Это круто:
1. Обучение промтингу для новичков становится гораздо легче + опытным можно подсмотреть много нового.
2. В комбинации с референсным изображением можно получить новый уровень контроля.
3. Это все-таки в рамках модели MJ. Img-to-text для Stable diffusion существуют давно, но он своеобразный.
4. Дают ссылки на артистов, если они попадают в промт.
В примере реваая попавшаяся фотография Тбилиси и результат генерации. Я кстати не знал, что такое пропорции можно задавать.
Вызвать командой /describe
RunwayML Gen-1 теперь доступен каждому
🍎 Попробовать можно по этой ссылке
🐱 Для всех доступно 400 кредитов, по 14 кредитов тратится на 1 секунду видеогенерации. В среднем для всех можно попробовать 28 секунд видео. Это хватит чтобы посмотреть возможности генераций.
📕 Как пользоваться? Загружаем от 1 до 3 секунд видеоряд, затем выбираем либо уже готовый стиль, либо подгружаем, либо описываем текстом стиль, схоже на SD по промптингу. Можно настроить seed и стиль влияние картинки/текста на референс видео. Главное убедиться что выбрали стиль, иначе кнопка не активируется
📕
🔥 RunwayML уже сообщил о Gen-2, где генерации видео возможно только по текстовому запросу, сейчас нужно еще референс видео. Больше про Gen-2 можно почитать тут.Кидайте свои лучшие работы в комменты
"Синтетический ренессанс" — это дальновидное произведение искусства, объединяющее человеческое творчество и искусственный интеллект, символизирующее безграничные возможности искусства, созданного искусственным интеллектом, 3D-технологий и будущего инновационного и доступного музейного опыта.
Описание картин получилось после брейншторма нескольких выдуманных художников в GPT4, самое удивительное и интересное создавать разных личностей и предлагать нейронке общаться ими и придумывать новые идеи. Тем самым спасая свой мозг и нервную систему от такого же процесса, хех. При этом получая прекрасный результат общения нескольких выдуманных художников.GPT4 для промпта, MJ v5 для генерации
Zero-1-to-3: Zero-shot Одна картинка в 3D
🔥 Фреймворк для изменения точки зрения камеры на объект, учитывая только одно изображение RGB. можно поиграться в huggingface демо, работает приятно хорошо + дает несколько вариантов для измененного положения. Вытаскивать полноценный 3D формат можно в коде, он доступен. Правда авторы говорят, что настройки для лучшего качества реконструкции вам нужно будет нащупать самим.
INFO—PAPER—DEMO—GITHUBПолучается совсем скоро картинка в 3D?
🤔
Compositional 3D Scene Generation
Проектирование сложных 3D-сцен было утомительным ручным процессом, требующим знаний в предметной области. Появляющиеся генеративные модели преобразования текста в 3D демонстрируют большие перспективы для того, чтобы сделать эту задачу более интуитивной. Новый алгоритм создает локально обусловленную диффузию как подход к композиционной диффузии сцены, создавая контроль на областями и текстовой связкой при этом генерация выглядит бесшовной.
INFO—PAPERКода нет пока, но количество анонсов про 3d нейронки очень радует
Если не устали, продолжаю анонсить в течение дня
LERF: Language Embedded Radiance Fields
🐱 Продолжая про Nerf вот интересный алгоритм сегментации Nerf объектов. Это позволит намного быстрее собирать данные для больших моделей textTO3d
INFO—PAPER—EXAMPLES—CODE(обещают выложить)
😶🌫️ И тут же интересный PAPER, который улучшает меш после Nerf рендера. В примерах статьи действительно приятные улучшения. Пока только статья без кода, но почитать приятно такое. А еще тут какой-то движ с 3d нейронками...
✨ Началась ежегодная конференция Nvidia GTC:
https://youtu.be/DiGB5uAYKAg
Основатель OpenAI тоже будет выступать
ДАЙДЖЕСТ за 2 недели
😳 GPT-4 - Ууух, не могу пока наиграться, на данный момент стоит ограничение в 25 сообщений в 3 часа, начиналось со 100 сообщений в 2 часа. Что уже известно:
- Встроенная модель в BING как раз была GPT-4. LINK
- Пока закидывать изображения для анализа нельзя, но такая возможность есть в GPT-4. LINK
- Модель прекрасно объясняет шутки. Пишет код и даже решает тесты и экзамены. TECH REPORT
Пока модель доступна только для пользователей ChatGPT+(платной версии ChatGPT) и открыт waitlist на API.
Создал кстати виртуального художника и
взял у него
интервьюGPT4 + Midjourney v5🍎 Modelscope - text2video opensource модель, пока мало секунд и работает мощных GPU. Еще Shutterstock вотермарка постоянно встречается. При этом результат на выходе выходит цельный, угадываются движения и предметы. Мемов пока больше, чем годноты, но через несколько месяцев явно будет веселее.
(Запускать лучше на А100)
🔥 GIGAGAN - Ганы возвращаются и предлагаю не только плавное перетекание между картинками, но и 4K картинки за 3,66 секунды(512 за 0,3 секунды), а так же какой-то безумный апскейлер. Кода нет =(
INFO—PAPER/settings
выбрать 5 версиюОфициальный пресс релиз о GPT 4:
https://openai.com/research/gpt-4
Из интересного, она на вход может принимать картинки, не просто текст 🌚 про параметры я еще не почитал сам
Записаться в API вейтлист можно тоже по ссылке выше.
Кстати, если у вас ChatGPT Plus то вам дадут к ней доступ и так
Новые модели text2img, которые сейчас выпекаются на GPU 🥘
🔥 IF от Deepfloydai. Ожидаем очень релиза. Модель действительно хороша в генерации текста в артах, через промпт.
🍎 StableDiffusion-XL от StabilityAI. Это похоже SD 3.0. Но больше инфы у меня нет. Есть только примеры генераций:
EXAMPLES
🔄 Composer от AlibabaGroup. Схожая с ControlNet модель. Но есть свои особенности, например, генерация через предложенную палитру.
INFO—PAPER—GITHUB
🐱 DALL·E 2 experimental от OpenAI. Хотя тут еще анонс GPT-4, которая мультимодальная и обещают генерацию не только текста, но и картинок и звука. Представьте, ChatGPT на стеройдах.
EXAMPLES
🤫 MidJourney v5 от midjourney. Если вам надоело уже качество v4, кажется это как раз нечто новое, с пальцами еще попадаются веселые примеры, но интересен сам момент обучения, комьюнити сильно помогает отбирая лучшие результаты во время тренировки.
EXAMPLES
🔄 The-Model-After-SDXL™ от StabilityAI и MysteryGuitarM:
Промпт в одно слово.
Никаких трюков. Никаких негативных промптов. Без входящих картинок.
EXAMPLES
Многие модели уже тренятся с человеческим подкреплением, где комьюнити самостоятельно улучшают эстетику моделей, выбирая лучшие из генераций в момент обучения модели.
Пример для SD Тут можно погенерить бесплатно запросы и выбирать лучшие по вашему мнение.
Пример для Midjourney Тут нужно авторизоваться через дискорд и выбирать одну из двух генерация. Самые интересные можно себе сохранить
😶🌫️
Автор арта -illustrata.ai
Интересная статья от нее, как она становилась AI artist во втором Stable дайджесте.LINK
Еще вагон видеонейронок ожидается...
Читать полностью…
Коротенькое видео, на котором очевидна консистентность композиции и форм, но при этом все остальное переосмысляется (в рамках, конечно, промта с котом).
#Controlnet — изучать и изучать, так как конфигураций использования, даже не учитывая что он постоянно обновляется — миллиард. Продолжаю тренироваться на кошках. 😩
ControlNet от Microsoft
🔥 GLIGEN - вариант генерации через бокс, скелет от Microsoft, возможно генерировать с нуля или inpainting поверх уже готовых изображений. Так же можно подкидывать референс стиль для генерации.
😳 Есть урок на английском, демо для теста и код! Работает на базе SD, но лучше позволяет создавать сложные концепты.
INFO—PAPER—GITHUB—DEMO—LESSONВ демо можно мемасов нагенерить много =)
Продолжая вчерашний дайджест:
Сравнение двух видео алгоритмов
🐱 ControlNet + Ebsynth и Gen-1. Оба алгоритма на вход требуют видео, то есть просто с текстовой подсказкой видео не получить.
😶🌫️ Особенность первого подхода в том, что он доступен прямо сейчас и позволяет хорошо видоизменять оригинальное видео. Хотя Ebsynth сглаживает картинку, все равно при одинаковом seed параметре происходят скачки по получаемому изображению.
🧐 Gen-1 получает цельную картинку по стилистике, может использовать картинку как референс и текст, ControlNet пока только текст. Цельность картинки достигается за счет латентного пространства, поэтому стиль оригинального видеоряда можно менять во все стороны. Например, менять на день на ночь, что в ControlNet достигается только путем потери стабильности генерации видео.
Думаю к лету все уже будут превращать обычные видео свое рабочего пространства в пролет над чудными городами.Автор
оригинального сравнения
Читать полностью…
Продолжая вчерашний дайджест:Растяну посты на день, чтобы не доставать вас уведомлениями
🔄 FLEX. Синтез трехмерных человеческих аватаров, реалистично взаимодействующих со сценой, является важной проблемой для приложений в AR/VR, видеоиграх и робототехнике. Новый алгоритм помогает решить эту сложную задачу и в целом показывает, что отлично симулирует движения реального человека, когда лень что-то взять адекватно и берешь на автомате.
INFO—PAPER—GITHUB(Код есть с весами)
А видос мемный — когда в гостях попросили ничего не трогать
Невероятная статья про чтение визуальных мыслей через SD
😳 «Presented images» были показаны группе людей. «Reconstructed images» были результатом вывода fMRT(Разновидностью МРТ для нейровизуализации)
в «Stable Diffusion».
📕 Коротко говоря активность нейронов декодируется и подается в Stable Diffusion для генерации картинки. И мы получаем достаточно точную картинку, что видел недавно человек.
🍎 Авторы говорят что их простая структура может реконструировать изображения с высоким разрешением на основе мозговой активности с высокой семантической точностью без необходимости обучения или тонкой настройки сложных глубоких генеративных моделей. То есть для процесса не потребуется обучать или файнтюнить новую большую модель по типу Stable Diffusion.
😍 И кажется новая статья приблизит нас к понимаю как же работает декодирования изображений в нашем мозге. И поможет исправлять баги в этой части мозга. Как пример, в 3 картинке показывается насколько активность нейронов влияет на качество картинка на выходе из SD.
INFO—PAPER—GITHUB(Кода пока нет, но обещают)
Немного нейронного контента на вечер
Пока пишу основной дайджест пост про нейронки...
🐱 Предлагаю вам контент про нейронки на вечер:
🔥 Первое - Генеративная Паверпоинт Найт. Ребята в шутливой форме и с генеративным контентом проведут too_motion_channel">стрим, где будет 11 докладов на самые безумные темы. Я сам не успел залететь из-за переездов.
Там будут авторы каналов @too_motion и ЭйАйЛера.
too_motion_channel">Стрим в 20 часов по мск.
🧐 Второе - Runway AI FILM FESTIVAL
Из интересных работ, есть уже работа, про которую я писал.
— Классная работа про Checkpoint, объясняющая про датасет и работу Визуальных нейронок, при этом сделанная в приятном визуальном формате.
— Криповая работа про AI художника и как его боль не принятия его как художника перерастает в художественную работу.
— Грандприз получила работа с уже знакомым стилем нейронных генераций для танца.
Если хотите посмотреть все работы — INFO
☺️ И невероятная анимация, сделанная в классическом стиле про Дроны и Сильный ИИ, кажется очень актуальная тема сейчас. И не будут сполейрить концовку, но мне кажется первый Разумный ИИ так и сделает, хахаха.
Превью - генрация в Modelscope алгоритме.
А я пошел собирать дайджест про нейронки, спойлер - все чего-то резко стали бояться скорости развития ИИ, хмммм
"Синтетический ренессанс" — это дальновидное произведение искусства, объединяющее человеческое творчество и искусственный интеллект, символизирующее безграничные возможности искусства, созданного искусственным интеллектом, 3D-технологий и будущего инновационного и доступного музейного опыта.
Описание картин получилось после брейншторма нескольких выдуманных художников в GPT4, самое удивительное и интересное создавать разных личностей и предлагать нейронке общаться ими и придумывать новые идеи. Тем самым спасая свой мозг и нервную систему от такого же процесса, хех. При этом получая прекрасный результат общения нескольких выдуманных художников.GPT4 для промпта, MJ v5 для генерации
ChatGPT plugins
🍎 OPENAI реализовали первоначальную поддержку плагинов в ChatGPT. Плагины — это инструменты, разработанные специально для языковых моделей, основным принципом которых является безопасность. Они помогают ChatGPT получать доступ к актуальной информации, выполнять вычисления или использовать сторонние сервисы.
📕 Уже представлены Wolfram - для вычислений, Speak - для изучения языка и многие другие, больше почитать, посмотреть тут.В демовидосе представлены варианты использования.
INFO—DOCUMENTATION
Обширная статья от исследователей из Microsoft с говорящим названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. В ней 150 страниц, из которых 50 - это appendix с деталями экспериментов. Все я не прочитал, некоторые более интересные для себя блоки изучил. С каждой страницей копилось всё больше и больше материала, которым хотелось поделиться 😭 поэтому если вам интересно - предлагаю открыть оглавление и пощёлкать избранные пункты.
TLDR: В общем, по ходу обучения GPT-4 делают огромное количество разнообразных эксперименты, причём я так понимаю большая часть из них даже не включает финальную версию модели. Пробуют оценить рассуждения модели, понимание математики, программирования (берут свежие задачи с LeetCode, которые появились в конце 2022го, то есть именно в таких формулировках модель их не должна была видеть, разве что очень похожие), Theory of Mind (по сути наброски той работы, что я уже описывал выше), генерация кода для создания графиков по их описанию (картинка 3), написание музыки.
> Центральное утверждение нашей работы состоит в том, что GPT-4 достигает формы общего интеллекта, действительно демонстрируя искры искусственного общего интеллекта (AGI). Об этом свидетельствуют его основные умственные способности (такие как рассуждение, творчество и дедукция), диапазон тем, по которым он приобрел опыт (например, литература, медицина и программирование), и разнообразие задач, которые он может выполнять. (например, играя в игры, используя инструменты, объясняя концепты...). Еще многое предстоит сделать для создания системы, которая могла бы квалифицироваться как полноценный AGI.
Мне понравился пример, где модель играла в текстовую игру, перемещаясь по комнатам, а затем смогла выдать код, который рисует структуру переходов между комнатами - и почти без ошибок (см. картинку 2). А ещё чем дольше модель учится, тем лучше она рисует единорога с помощью LaTeX (картинка 1).
Про 3D нейронки
🍎 Vox-E: Text-guided Voxel Editing of 3D Objects. Работа Google Research и Tel Aviv University позволяет видоизменять 3d объекты через текст.
INFO—PAPER—EXAMPLES
☺️ Objaverse - огромный открытый набор данных текстовых парных 3D-объектов!
Почти 1 миллион аннотированных 3D-объектов, чтобы проложить путь к созданию невероятных крупномасштабных генеративных 3D-моделей.
PAPER—DATASET
Given Again
😳 Это работа сделанная Jake Oleson полностью в Luma AI использую Nerf рендер.
🔥 Потрясающая работа, полностью ее можно посмотреть тут.
📕 Сейчас Nerf является доступной 3d фотографией, которая сохраняет в памяти всю сцену в отличие от видео и фотографии, и вы можете в дальнейшем покружить в этом пространстве. И пока мы ожидаем реалтайм создание таких сцен для возможность менять камеру для движений Luma AI предлагает уже готовые предметы и сцены встраивать как AR объекты.
Тест Modelscope
📕 Генерация 256x256 формата и примерно секунды движения.
🔥 Используется только текст для генерации, не нужно референс видео, как например для Gen-1.
😠 Есть косяки в виде лого shutterstock, возможно использование негативных промптов поменяет процесс.
INFO—DEMO—WEIGHTS—COLAB(Запускать лучше на А100)
Напоминает момент, когда заопенсорсилиLatent Diffusion
, тогда в первое время также было 256x256. Но зато какой потенциал, теперь есть и движения!Промпт:
Macro shot of
объект by Victo Ngai, hd, 4k
Читать полностью…
🔬 Я решил испытать Mj v5 и Dalle 2 с разными подсказками. Для креативных подсказок я использовал GPT-4. Теперь давайте создадим популярно-научный пост для Телеграмма с одним эмодзи перед каждым абзацем. Текст будет на русском, но подсказки на английском.
🧪 Mj v5:
🤖 Mj v5 - это новейшая технология в области искусственного интеллекта, которая позволяет создавать удивительные визуальные изображения на основе заданных подсказок.
🖼 Dalle 2 experimental:
🎨 Dalle 2 - это другая потрясающая технология, которая способна генерировать изображения высокого качества на основе текстовых подсказок.
🧠 GPT-4:
💡 GPT-4 - это продвинутая модель генерации текста от OpenAI, которая способна создавать связный и креативный текст на основе подсказок. Она может быть использована для множества приложений, включая создание статей, рассказов и даже популярно-научных статей, таких как эта.
📝 Подсказки(Prompt):
📚 Подсказки являются краткими описаниями или запросами, которые помогают модели AI понять, какой тип контента вам нужен.
Prompts:
🏜 Бруталистский водохранилище, окруженное пышными, войлочными растениями в акварельной пустыне, символизирует стойкость и инновации Дубая в поддержании жизни в засушливой среде.
🦸♂️ В диораме представлены супергерои, вдохновленные мемами, такие как Чак Норрис и Малыш Йода, спасающие город от нападения, сражаясь в забавных битвах против злополучных мемных злодеев.
🎬 Суетливый миниатюрный город смешивает популярные кинематографические моменты с мемной культурой, создавая сцены, вроде Джека из "Титаника", наезжающего на Nyan Cat, и Нео, уклоняющегося от монет Doge в "Матрице".
🎓 Школьная диорама представляет знаменитых киногероев, преподающих предметы, связанные с мемами, объединяя популярное кино и интернет-юмор в классах, возглавляемых Гэндальфом, Парнем и Вилли Вонкой.
🛍 Новый облик рынка сочетает бруталистские киоски, акварельные дорожки и войлочные товары, отмечая гармоничное слияние традиций и инноваций Дубая в уникальной арабской рыночной среде.
ControlNet для SD v2.1
😳 Thibaud обучил ControlNet для Stable Diffusion v2.1, сейчас уже есть моделька Canny, Depth, HED, OpenPose.
🥳 Для обучения использовалось 300 тысяч картинок из LAION open датасета.
Как любитель генерить на v2.1 считаю что эта новость прекрасна!☺️
еще веса для Diffusers
Читать полностью…
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"
GitHub проекта: https://github.com/microsoft/visual-chatgpt
ого! в контролнет завезли стилизацию. и она бомбическая!
жми на паузу чтоб узнать какой ты сегодня котик)
@тоже_моушн
Word-As-Image for Semantic Typography
☺️ Word-As-Image позволяет создавать изображения в разных шрифтах и для разных текстовых концепций. Семантически настроенные буквы создаются полностью автоматически с использованием нашего метода, а затем могут использоваться для дальнейшего творческого дизайна, как показано в примере.
INFO—PAPER—GITHUB(кода пока нет, но обещают)
Интересный алгоритм понимания текста и трансформации шрифта в полученный контекст.
Продолжая вчерашний дайджест:
Dalle 2.5
📕 Похоже в Dalle 2 завезли ембеды, и качество генераций выросло, меньше и артефактов. Доступ к новой модели дают на несколько дней. Правда фотореалистичность всей модели стала меньше.
Больше примеров: LINK
Дайджест за неделю
🔄 ChatGPT API только появился, а уже его прикрутили к Automatic1111. Генерит расширенные промпты в том количестве, в котором хотите, требует API ключ от OpenAI.
INFO—GITHUB
🍎 Human Motion Diffusion as a Generative Prior. Используя SMPL-X датасет в новом алгоритме предлагают решить основную проблему предыдущих text2motion сеток, а именно добавлять промежуточные движение, которые позволят писать последовательность движений, а уже сетка догенерит движения между, например, приседанием и бегом. Жду алгоритм в Блендере, вот прошлые мои тесты.
INFO—PAPER—GITHUB(кода пока нет, но обещают)
🔥 Photoshop Stable Diffusion plugin V1.2.0 получил ControlNet. И это сильно прокачивает возможности.
INFO—GITHUB
😳 Сегментация в ControlNet через Blender. Появился понятный урок про сегментацию и скрипт для Блендера. Требует правда и локальное наличие AUTO1111. Урок на английском.
LESSON—SCRIPT
+ к этой новости, карта сегментаций для T2I🔄: LINK А остальную часть дайджеста, которая требует визуального ряда оставлю на утро для завтра. Сделаю тест, выложу как отдельные посты друг за другом.
Автор превью - я. Gen-1 крут, но через дискорд бот и всего 2 секунды видео можно обрабатывать, что вызывает огромные проблемы. Но алгоритм прорывной.
StabilityAI сделал свой официальный AI плагин для Blender
☺️ Позволяет не выходя из Блендера генерить текстуры, видео и многое другое.
🐱 Правда работает через api ключ. Зато не требует мощных GPU на вашем компе.
📕 Есть целый сайт с документацией и обучением.
LINKЕще бы с Deforum и c ControlNet соединить...