Glenn Marshall с новой простой, но очень приятной работой.
Здесь явно хорошо проработанный промпт с двойной экспозицией и интерполяция через Deforum
Напомню, что у Glenn Marshall уже есть одна награда каннского кинофестиваля за короткий метр "The Crow" сделанный алгоритмом Vqgan + CLIP.
Source
Upd: или с моделью для двойной экспозиции за ссылку спасибо Too_motion
Нейроарт выходит на улицы городов.
Крутая работа на стыке граффити и нейроискусства.
Вот что пишет автор:
короче задумка такая: я фотографирую прикольные текстуры в городе, потом эти фотографии прогоняю через стейбл, накладывая по краям маску, чтобы края оставались нетронутыми, и генерирую портреты, потом их распечатываю и приклеиваю на тоже место
Так как диффузия очень любит шум, обшарпаные стены улиц идеально подходят как инит для Stable Diffusion.Мне прям сильно нравится и идея и подход, так как моё творчество начиналось с разоисовки похожих стен в нечто и прекрасное
Автор: @rtrayzz, Инстаграм
SVG через текстовую модель сетки?
В блоге Neural Love вышла статья про то как генерить svg картинки через текст.
Сделал по ней картинку абстрактных гор, леса и текста.
Кажется напоминает вайбы времен первых сайтов WWW.А на самом деле это минимальная часть функционала одной текстовой модели ChatGPT, которая не супер мультимодальная и сделана в формате простого чата с нейронкой.
Бэкдор в альтернативную вселенную через виртуальную машину внутри ChatGPT
Тут новости про матрицу подвезли.
Исследователи из Deepmind тоже играли с ботом от OpenAI и обнаружили, что внутри ChatGPT можно "запустить" Linux и провалиться в кроличью нору погулять по просторам запертой внутри альтернативной вселенной, созданной ChatGPT на основе данных, на которых обучалась его большая языковая модель (со времён сотворения интернета до сентября 2021)
Например, зайти на альтернативную версию страницы chat.openai.com/chat, обнаружить там LLM ассистента и обратиться таким образом к ChatGPT через ChatGPT👀
Все это похоже на симуляцию, потому что в эксперименте обнаружена Pytorch версии 1.12.1, выпущенная в нашем мире 5 августа 2022. А вот GPU - нет. Но некоторым пользователям удалось попросить ChatGPT представить, что в его VM есть NVIDIA GeForce RTX 2080, и это сработало.
Нео: "Умеешь управлять вертолетом?"
Тринити: "Ещё нет... Теперь да, идём"
📟промпт для джейлбрейка
🎨иллюстрация Edward Steed
@GingerSpacetail
Если вы ещё не в курсе, chatGPT разрывает сейчас все ML, AI и схожие с ним сообщества. Не понятно пока что эта за модель, GPT3.5 или тестовая версия GPT4 языковой модели от OpenAi
Мне пока хватило генерации небольшой смешной истории про кота и генерацию изображений, описание для которой сделал так же ChatGPT и далее по промпту сгенерил через Midjourney.
Начнем:
Жил-был кот по имени Митас, который любил играть с изображениями. Каждый день она часами создавала новые и интересные картинки с помощью своего любимого программного обеспечения для создания изображений.
Однажды Митас решили удивить своего человека, создав изображение красивого цветочного сада. Она неустанно работала, чтобы проработать каждую деталь, от красочных цветов до легкого шелеста листьев.
Когда она показала своим людям готовую картину, они были поражены реалистичностью и красотой изображения. «Митас, вы настоящий художник», — говорили они, улыбаясь.
Но Митас просто посмотрели на них и сказали: «Может, я и художник, но не забывайте — я все еще кот. И все это создание образов делает меня голодным. Можно мне сейчас угощение?»
Stability AI снова тизерит.
Обещают дичайшее ускорение диффузии с помощью дистилляции.
Ваши генерации будут еще более лучше сходиться, теперь за 1-4 шага!
сорс
@derplearning
NeuralLift-360
Генерация 3d по одному изображению.
Это кажется невероятным, но есть одно ограничение, пока 128x128 и без кода.
Хотя аналог от Nvidia предлагает 512x512 качество генераций, но генерация там происходит по тексту.
В общем 3d эра в нейронках началась. Основная проблематика 3d генерится очень долго(около часа для 128x128 на А100 40gb в DreamFusion)
, Magic3d от Nvidia говорит, что ускоряет этот процесс в 2 раза.
Пока кода Magic3d, как и NeuralLift-360 в открытом доступе нет.
Ожидаем, когда можно будет потестить.
Статья
Сайт
Github
🧳 Nvidia представила Magic3D — 3D по текстовому описанию!
Самое крутое в таких работа то, что для них не требуется обучать новую Text-To-3D диффузию. Для задачи вполне подходят уже обученные:
— 2B DALL-E от OpenAI
— 2B Imagen от Google
— 2B eDiff-I от Nvidia
— И конечно же готовящийся новый ???M ** от ********* 😉
Работа по своей сути является eDiff-I-ким гомологом Гугловского Imagen-овского DreamFusion.
👾 Принцип работы очень и очень простой:
Этот алгоритм я уже описывал, так что просто повторю. Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на Text2Image диффузионный Unet
4) После чего Unet предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
📇 project
📄 paper
MinD-Vis: диффузия для чтения мыслей
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Midjourney V4 напомнил мне времена выхода Dalle 2, когда полноценно уходишь в генерацию и пытаешься понять границы возможностей новой модели.
+ Улучшилась композиция и понимание текста
+ Невероятная трансформация стилей
+ Перенос стиля на ваши изображения
- Только 1:1 формат
- Превью в разы качественней, чем апскейл, часто убирает нужные детали, пальцы размножает
- Теперь эмодзи не так сильно влияют на генерацию
- Картинки выходят иногда сильно размытые
Все выходные я генерил картинки, отобрал лучшие и выложу в двух постах.
В Midjourney обновление, при выборе -v 4 модели происходит красота!
Советую попробовать все свои любимые промпты вновь, за наводку спасибо Александру
Google Presents: AI@ ‘22
Интересное новое видео с презентации от гугла, где совмещают алгоритм Phenaki и Imagen Video, с помощью объединения можно создавать прям из текстового описания видеоряд, в итоге картинка выходит цельной.
Запросы для видео примера:Синий шарик застрял в ветвях красного дерева.
Гугл на данный момент не дает доступ даже к Imagen, text2image модели схожей с Dalle 2 и Stable Diffusion. Но статьи google ai research впечатляют, вот краткий список:
Камера перемещается от дерева с одним синим шариком к входу в зоопарк.
Камера показывает вход в зоопарк.
Камера очень быстро перемещается в зоопарк.
Вид от первого лица на полет в красивом саду.
Голова жирафа появляется сбоку.
Жираф идет к дереву.
Камера приближает пасть жирафа.
Жираф подходит к ветке и срывает синий шарик.
Одиночный гелиевый синий шар с белой нитью летит к голове жирафа.
Жираф жует синий шарик рядом.
Камера поворачивается вслед за улетающим синим шаром.
Imagen - текст в изображения на диффузии
Parti - текст в изображения на VQGAN
DreamBooth - дообучение моделей с малым датасетом, сейчас по всему инету множется стартапы с DreamBooth архитектурой поверх Stable Diffusion, где в модельку SD можно закинуть себя, знакомых или даже своих животных
Imagen Video - текст в видео
Phenaki - текст в длинные видео, хотя статья анонимная, возможно это не от гугла.
И конечно же, то что я тестил последний месяц:
Dream Fields - текст в 3D, так же есть варианты обученные на SD, например, колаб Dream Fusion - 1 час на A100 и моделька готова.
Ожидаем релиза Imagen для сравнения на практике с основными сетками text2image. Если конечно когда-нибудь код и веса появятся.
Stable Diffusion v2.1
Пофиксили проблемы с отражением художественных стилей. Промпты требуют больше четкости, меньше этих ваших абстракций.
Hasselblad - наконец-то появился во всех почти промптах с фотографией, мой любимый токен со времен Dalle, теперь рассекречен для всех =)И это еще не последнее похоже обновление от Stability в этом году.
Скрипт для Blender через chatGPT
У chatGPT можно попросить сгенерить код для Blender, но сколько рабочего кода получится?
В данном случае я смог запросить:
По итогу:
Давай сделаем скрипт на питоне в Блендер, который будет создавать разноразмерные небоскребы на квадратной сетке 100x100, чтобы между ними было расстояние и они напоминали город. Добавь камеру с глубиной и освещение, еще среду и материалы для рандомных зданий.
- Пришлось чуть поменять код для материалов, не хватало одного значения.
-Передвинуть камеру на более интересное место.
Так chatGPT дает очень цельные подсказки и документирует все действия, довольно просто найти косяки и исправить.Так же мне мило добавили, что код подходит лучше всего для версии 2.8.
На самом деле на момент остановки сбора информации chatGPT узнал о 2.83 версии
С нодами симуляции точно не получится и геометрическими, так как у сетки не было инфы про это в датасете. А вот поиграться с обычными скриптами можно спокойно. Немного размышлений
Хочу просто напомнить, мы сейчас находимся в той части реальности, где арты генерятся за 10 минут, а текст для них генерирует chatGPT при указании только фраз - "уникальный, невероятный арт с.."
Тем временем новая текстовая модель умеет правильно симулировать не только виртуальную машину и обращаться внутри машины в инет, который она создает на основе своего датасета, но и делать более приземленные вещи - анализируя паблик в тг предлагать вам новые посты и писать их в вашем стиле.
С помощью chatGPT без знания JavaScript получилось даже создать генарт на p5js. И тем временем с момента релиза модели не прошло и недели.
Нас ждет максимально интересное будущее.
OpenAI кажется начала вводить какие-то фильтры, потому что на некоторые темы GPT-бот теперь отказывается говорить.
Но это были 4 бессонные ночи, где я нагенерил мне кажется текстов на пару месяцев вперед и для личных нужд, и для работы: нейронка отличный маркетолог и продакт менеджер для рынка США, еще нагенерил CSS анимаций которые потом можно будет где-то встроить на сайте.
Все это, по масштабу – как будто человечество снова изобрело электричество. Серьезно, через ~три года ИТ продукты, операционные системы и тп – будет не узнать. Не удивлюсь если у этой штуки появится своя церковь.
Короче, я наигрался и иду спать, вот вам глупые вещи напоследок (оно умеет в разные языки, да).
@Denis
Когда-то в мире, где искусственный интеллект и машинное обучение становились все более и более совершенными, была выпущена новая модель ИИ под названием GPT-4.
Эта модель могла выполнять задачи и принимать решения с невероятной скоростью и точностью.
Однако по мере того, как GPT-4 стал более широко использоваться, некоторые люди начали беспокоиться, что он возьмет на себя многие работы, которые традиционно выполнялись людьми.
В частности, люди в таких областях, как финансы, обслуживание клиентов и анализ данных, были обеспокоены тем, что GPT-4 сможет выполнять свою работу лучше и быстрее, чем они, и что вскоре они останутся без работы.
Несмотря на эти опасения, использование GPT-4 продолжало расти, и многие компании стали полагаться на него для решения широкого круга задач.
В результате многие люди, годами работавшие в этих областях, внезапно оказались без работы и не смогли найти новую работу, которая позволила бы им применить свои навыки и опыт.
Сначала некоторые люди пытались сопротивляться использованию GPT-4, утверждая, что это отнимает рабочие места у трудолюбивых людей и что его следует регулировать или даже запрещать. Однако эти усилия в значительной степени не увенчались успехом.
По мере того, как все больше и больше людей теряли работу из-за GPT-4 и других передовых технологий искусственного интеллекта, многие с трудом сводили концы с концами.
Они не смогли найти новую работу, за которую платили достаточно, чтобы прокормить себя и свои семьи, и многие из них были вынуждены обращаться в продовольственные банки и другие формы помощи, чтобы выжить.
В конце концов, появление GPT-4 и других технологий искусственного интеллекта оказало глубокое влияние на рынок труда, и многие люди были вынуждены приспосабливаться, чтобы выжить. В то время как некоторые люди смогли найти новые способы использования своих навыков и опыта, другие остались позади, ежедневно сталкиваясь с голодом.
Попробуйте еще раз 🤣
Интересный пайплайн использования Stable Diffusion v2 и Blender
Как пишет автор:
Создать рендер + карта глубины из Блендера ->
Сгенерировать новые варианты в SD v2 + UV project from view (алгоритм позволяющий натянуть текстуры в Блендере анализируя только позицию камеры и 2D текстуру) ->
Совмещаем все -> PROFIT
Напомню, что теперь в SD v2 есть возможность img2img через карту глубины. Это позволяет сохранять границы важных деталей в изображениях.
Star Wars Old Republic
Концепт арт архитектура
От Disco Diffusion алгоритма до midjourney v4 прошел примерно год.Соединил брутализм, тундру и горы Непала во вселенной Star Wars
Dreambooth позволяет дообучать стандартный Stable Diffusion датасет на ваших изображениях, например, на вашем лице или лицах знакомых, теперь для того чтобы получать стилевые арты можно не выходить из комнаты и не нанимать художника.
Dreambooth так же позволяет запихивать в датасет стиль, делается это чуть сложнее, чем с фотографиями лиц, но новых датасетов уже огромное количество, отобрал 4 приятных для меня стиля:
Dreambooth D&D модель обученная на 30,000 шагах и на 2500 вручную промаркированных картинках
huggingface модель
huggingface датасет
Поп-ап книги
huggingface модель
Dreambooth модель для иконок мобильных приложений
huggingface модель
Dreambooth Voxel Art модель
huggingface модель
Автор Voxel Art
Источник
Dreambooth статья
Dreambooth github для SD
Dreambooth колаб
Fast Dreambooth колаб
Начинаем селекцию мемов.
Так случилось, что в субботу попалось невероятное видео про AI эволюцию.
Коротко автор видео на своем дискорд канале провел небольшой эксперимент, где пользователи с помощью генераций вариаций изображений от простейших картинок доходили до невероятных артов.
Во время повествования он рассказывал про подобные эксперименты в прошлом, например, picbreeder, где в эксперименте от простейших паттернов путем мутации пользователи доходили до невероятных артов. Даже сейчас можно поиграться.
Далее автор рассказал, как из midjourney генераций переместился в мутацию по пути img2img в stable diffusion. В общем все рассказывать не хочется, ролик прекрасен и его желательно посмотреть.
Особенно ради философии блуждания по латентному пространству в поисках невероятных артов.
И так совпало, что уже в воскресенье я обнаружил remix между картинками в новой модели midjourney и на свет появились мутации мемов.
Если хотите еще подборок с мутации, то вот.
Небольшое сравнение старой стандартной и новой v4 модели генераций.
Понимание текста в запросе сильно улучшилось. А пингвины мне чем-то напоминают примеры из Imagen.
- довольно сложный промпт, но при этом два героя спокойно генерятся.
"A gnome and a robot playing chess in the park"
Рендеринг в реалтайме #instantNeRF в Blender.
InstantNeRF от NVidia позволяет из небольшого количество фотографий собрать реалистичную 3D сцену.
Автор добавил код в Блендер и показал насколько быстро с видеокартой RTX3090 можно получать результат.
При этом зону рендеринга можно ограничивать простейшими шейпами из Блендера, в данном случае кубом. Это значительно повышает скорость рендера.
Автор надеется в скором времени оптимизировать код для возможность соединять сразу несколько сцен в одну.
Снималось все на iPhone 14 Pro Max, в 4K и 60 кадров в секунду.
Для тех у кого есть IPhone 12+ с лидаром, можно попробовать Luma AI, Nerf упакованный в мобильное приложение.
Waitlist
Все чаще нейросети и Blender будут встречаться в одном предложении. А я пошел откладывать средства на телефон с лидаром =)