Итак, важные новости из нейромира! 🦜
Первая. Про 🗞🗞🗞🗞🗞.
Stability AI, которая в прошлом году подарила миру великий и бесплатный #StableDiffusion, вышла на тропу текстовых моделей и выпустила новую, бесплатную модель обработки естественного языка с открытым исходным кодом под названием #StableLM.
Почему это важно? Как и картиночном StableDiffusion — открытый код. Нет в мире ничего мощнее рукастых энтузиастов, которые на основе кода делают потрясающие вещи. Достаточно посмотреть на спектр продуктов/плагинов/приколов сделанных на базе стейбла. Так что пристегнитесь. Взлетаем в сиящую золотую стратосферу стартапов на основе языковых моделей, которых, судя по мей ленте в твиттере, уже тысячи. Будет в разы больше.
Взять можно на гитхабе, ну и страничка анонса с деталями.
Вторая. Про 🍷👽📀🦄🌰.
Как и предполагалось - стремительное развитие text-to-video моделей. Но стремительней, началась гонка! Мой прогноз, что через год мы достигнем уровня статичных картинок устаревает с каждой такой новостью.
1. Runaway выпустила Gen-2. Эти ребята как будто Midjourney в мире генерации видео. Качество продукта растет очень быстро. Так что ждем пятой версии!
2. Nvidia показывает свой text-to-video. Если Nvidia взялась за дело, то ждем огромный буст в этом направлении. Мощностей у них явно побольше побольше, чем у нескольких китайских ребят из modelscope.
3. Adobe выкатят полный набор инструментов для работы с видео. Демо выглядит, как магия. Не думаю, то что они показывают в ролике сейчас работает, но если заработает (а с их мощностями должно), то это нормально так поменяет индустрию кино/видео производства.
Продолжаем жить в удивительное время! 🚬
Довольно быстро приближаемся к разным инструментам для генерации последовательной анимации
Это тесты TomLikesRobots на Automatic1111 с расширением text2video, чистая генерация ИИ — никаких начальных изображений или видео.
Автор отмечает, что подсказки, которые хорошо работали в SD 1.5, похоже, хорошо работают с #modelscope например, в стиле артдеко, Альфонса Мухи.
Нейроморфные чипы NeuRRAM: энергоэффективные нейросети теперь реальность
Когда Лекун говорит о NeuralAI и создании цифровых органоидов, имитирующих биологические органы, это звучит как научная фантастика.
А когда в Nature выходит статья о новых нейроморфных чипах и решение МЛ задач на приборе размером с ноготок (1 кв см), дух захватывает, как в детстве на качелях.
NeuRRAM - это один из самых передовых чипов для нейроморфных вычислений, потому что:
- Использует аналоговую память для хранения и обработки больших данных;
- Поддерживает разнообразные и сложные задачи ИИ с довольно высокой точностью (например, классификация изображений 99% на MNIST; 85,7% на CIFAR-10, распознавание голосовых команд 84.7% на датасете от Google);
- Экономит до 1000 раз больше энергии, чем традиционные компьютеры (сейчас ИИ - серьезная нагрузка на окружающую среду);
- Спроектирован с учетом потребностей на всех уровнях от алгоритмов до устройств;
Секрет энергоэффективности в отсутвии энергозатратного перемещения данных: он хранит веса моделей в плотных, аналоговых и неволатильных устройствах RRAM и выполняет вычисления непосредственно на чипе. Микросхема также поддерживает параллелизм данных, отображая слой в модели нейронной сети на несколько ядер для параллельного вывода.
Прорыв в том, что NeuRRAM может работать на маленьких устройствах: часы, VR-шлемы, наушники и прочие edge девайсы.
В общем, может изменить будущее вычислений и ИИ. И где-то подвинуть NVIDIA🥇🤔🥈
@GingerSpacetail
📖Статья
Видео нейронки развиваются
👀 VideoCrafter — это опенсоурс алгоритм для генерации видеоконтента.
Включая в себя три вида генерации:
😀 Text2video — строится на Latent video diffusion модели (LVDM). Используя текст получаем видеоряд.
👍 LoRaVideo — LoRa реализует тонкую настройку, так как ее легко обучить и требуется меньше вычислительных ресурсов. То есть можно загонять свою стилистику в модель.
👍 VideoControl — видео генерации с дополнительным контролем, например, по карте глубины, авторы вдохновившись T2I алгоритмом предлагают свой, T2V алгоритм.
GITHUB—DEMO—COLABДемка пока без очереди и достаточно быстро и хорошо генерит
Дайджест по нейронкам
😳 Stable XL diffusion тестируется на dreamstudio, и в скором времени выйдет в opensource. Это вариант с 2,3 миллиардами параметров (первоначально 900 м в версии 2) с рядом улучшений, которые будут добавлены в Stable Diffusion 3. INFO
😶🌫️ Midjourney больше не дает тестовых бесплатных генераций. Все связывают это с дипфейками, например, Папы Римского в модном пуховике, но основатель компании David Holz в open hours в дискорде давно жаловался на безумные траты в бесплатных генерациях и relax mode генерациях(когда в порядке очереди даже после окончания часов генераций можно продолжать генерировать, но медленно)
потому эта история скорее хороший повод закончить бесплатный режим для всех, а не причина.
🍎 Еще новости про midjourney:
— Betaupscaler теперь дает качество 2048х2048px
— Появились функции seamless tiling для бесшовных текстур и prompt remixing, которая скрещивает промпты
— Функция /describe
позволяет описать картинка на промпт язык midjourney и сразу потестить 4 варианта промпта. картинка на превью появилась благодаря этой новой функции
📕 Бюро регистрации авторских прав США опубликовало заявление.
Вот ключевые моменты:
— Произведения, созданные ИИ, сами по себе не подлежат защите авторских прав.
— Автор-человек должен внести значительный творческий вклад в работу.
— Управление будет продолжать следить за правовыми и фактическими событиями, связанными с ИИ и авторским правом.
— ИИ можно рассматривать как инструмент, используемый авторами-людьми в творческом процессе.
— Защита авторских прав зарезервирована для произведений, созданных людьми, с оригинальным выражением и творческим потенциалом.
INFO
🤫 Истории вокруг chatGPT становятся масштабнее.
— В Италии chatGPT забанили на 20 дней, из-за небезопасного хранения данных. INFO
— Открытое письмо с просьбой приостановить обучение моделей мощнее уровня GPT-4 и разработать план создания ИИ, который благоприятно повлияет на все человечество. Само письмо и очень странная стать в Times вызвали бурные споры в инете.
Немного нейронного контента на вечер
Пока пишу основной дайджест пост про нейронки...
🐱 Предлагаю вам контент про нейронки на вечер:
🔥 Первое - Генеративная Паверпоинт Найт. Ребята в шутливой форме и с генеративным контентом проведут too_motion_channel">стрим, где будет 11 докладов на самые безумные темы. Я сам не успел залететь из-за переездов.
Там будут авторы каналов @too_motion и ЭйАйЛера.
too_motion_channel">Стрим в 20 часов по мск.
🧐 Второе - Runway AI FILM FESTIVAL
Из интересных работ, есть уже работа, про которую я писал.
— Классная работа про Checkpoint, объясняющая про датасет и работу Визуальных нейронок, при этом сделанная в приятном визуальном формате.
— Криповая работа про AI художника и как его боль не принятия его как художника перерастает в художественную работу.
— Грандприз получила работа с уже знакомым стилем нейронных генераций для танца.
Если хотите посмотреть все работы — INFO
☺️ И невероятная анимация, сделанная в классическом стиле про Дроны и Сильный ИИ, кажется очень актуальная тема сейчас. И не будут сполейрить концовку, но мне кажется первый Разумный ИИ так и сделает, хахаха.
Превью - генрация в Modelscope алгоритме.
А я пошел собирать дайджест про нейронки, спойлер - все чего-то резко стали бояться скорости развития ИИ, хмммм
"Синтетический ренессанс" — это дальновидное произведение искусства, объединяющее человеческое творчество и искусственный интеллект, символизирующее безграничные возможности искусства, созданного искусственным интеллектом, 3D-технологий и будущего инновационного и доступного музейного опыта.
Описание картин получилось после брейншторма нескольких выдуманных художников в GPT4, самое удивительное и интересное создавать разных личностей и предлагать нейронке общаться ими и придумывать новые идеи. Тем самым спасая свой мозг и нервную систему от такого же процесса, хех. При этом получая прекрасный результат общения нескольких выдуманных художников.GPT4 для промпта, MJ v5 для генерации
ChatGPT plugins
🍎 OPENAI реализовали первоначальную поддержку плагинов в ChatGPT. Плагины — это инструменты, разработанные специально для языковых моделей, основным принципом которых является безопасность. Они помогают ChatGPT получать доступ к актуальной информации, выполнять вычисления или использовать сторонние сервисы.
📕 Уже представлены Wolfram - для вычислений, Speak - для изучения языка и многие другие, больше почитать, посмотреть тут.В демовидосе представлены варианты использования.
INFO—DOCUMENTATION
Обширная статья от исследователей из Microsoft с говорящим названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. В ней 150 страниц, из которых 50 - это appendix с деталями экспериментов. Все я не прочитал, некоторые более интересные для себя блоки изучил. С каждой страницей копилось всё больше и больше материала, которым хотелось поделиться 😭 поэтому если вам интересно - предлагаю открыть оглавление и пощёлкать избранные пункты.
TLDR: В общем, по ходу обучения GPT-4 делают огромное количество разнообразных эксперименты, причём я так понимаю большая часть из них даже не включает финальную версию модели. Пробуют оценить рассуждения модели, понимание математики, программирования (берут свежие задачи с LeetCode, которые появились в конце 2022го, то есть именно в таких формулировках модель их не должна была видеть, разве что очень похожие), Theory of Mind (по сути наброски той работы, что я уже описывал выше), генерация кода для создания графиков по их описанию (картинка 3), написание музыки.
> Центральное утверждение нашей работы состоит в том, что GPT-4 достигает формы общего интеллекта, действительно демонстрируя искры искусственного общего интеллекта (AGI). Об этом свидетельствуют его основные умственные способности (такие как рассуждение, творчество и дедукция), диапазон тем, по которым он приобрел опыт (например, литература, медицина и программирование), и разнообразие задач, которые он может выполнять. (например, играя в игры, используя инструменты, объясняя концепты...). Еще многое предстоит сделать для создания системы, которая могла бы квалифицироваться как полноценный AGI.
Мне понравился пример, где модель играла в текстовую игру, перемещаясь по комнатам, а затем смогла выдать код, который рисует структуру переходов между комнатами - и почти без ошибок (см. картинку 2). А ещё чем дольше модель учится, тем лучше она рисует единорога с помощью LaTeX (картинка 1).
Про 3D нейронки
🍎 Vox-E: Text-guided Voxel Editing of 3D Objects. Работа Google Research и Tel Aviv University позволяет видоизменять 3d объекты через текст.
INFO—PAPER—EXAMPLES
☺️ Objaverse - огромный открытый набор данных текстовых парных 3D-объектов!
Почти 1 миллион аннотированных 3D-объектов, чтобы проложить путь к созданию невероятных крупномасштабных генеративных 3D-моделей.
PAPER—DATASET
Given Again
😳 Это работа сделанная Jake Oleson полностью в Luma AI использую Nerf рендер.
🔥 Потрясающая работа, полностью ее можно посмотреть тут.
📕 Сейчас Nerf является доступной 3d фотографией, которая сохраняет в памяти всю сцену в отличие от видео и фотографии, и вы можете в дальнейшем покружить в этом пространстве. И пока мы ожидаем реалтайм создание таких сцен для возможность менять камеру для движений Luma AI предлагает уже готовые предметы и сцены встраивать как AR объекты.
Тест Modelscope
📕 Генерация 256x256 формата и примерно секунды движения.
🔥 Используется только текст для генерации, не нужно референс видео, как например для Gen-1.
😠 Есть косяки в виде лого shutterstock, возможно использование негативных промптов поменяет процесс.
INFO—DEMO—WEIGHTS—COLAB(Запускать лучше на А100)
Напоминает момент, когда заопенсорсилиLatent Diffusion
, тогда в первое время также было 256x256. Но зато какой потенциал, теперь есть и движения!Промпт:
Macro shot of
объект by Victo Ngai, hd, 4k
Читать полностью…
🔬 Я решил испытать Mj v5 и Dalle 2 с разными подсказками. Для креативных подсказок я использовал GPT-4. Теперь давайте создадим популярно-научный пост для Телеграмма с одним эмодзи перед каждым абзацем. Текст будет на русском, но подсказки на английском.
🧪 Mj v5:
🤖 Mj v5 - это новейшая технология в области искусственного интеллекта, которая позволяет создавать удивительные визуальные изображения на основе заданных подсказок.
🖼 Dalle 2 experimental:
🎨 Dalle 2 - это другая потрясающая технология, которая способна генерировать изображения высокого качества на основе текстовых подсказок.
🧠 GPT-4:
💡 GPT-4 - это продвинутая модель генерации текста от OpenAI, которая способна создавать связный и креативный текст на основе подсказок. Она может быть использована для множества приложений, включая создание статей, рассказов и даже популярно-научных статей, таких как эта.
📝 Подсказки(Prompt):
📚 Подсказки являются краткими описаниями или запросами, которые помогают модели AI понять, какой тип контента вам нужен.
Prompts:
🏜 Бруталистский водохранилище, окруженное пышными, войлочными растениями в акварельной пустыне, символизирует стойкость и инновации Дубая в поддержании жизни в засушливой среде.
🦸♂️ В диораме представлены супергерои, вдохновленные мемами, такие как Чак Норрис и Малыш Йода, спасающие город от нападения, сражаясь в забавных битвах против злополучных мемных злодеев.
🎬 Суетливый миниатюрный город смешивает популярные кинематографические моменты с мемной культурой, создавая сцены, вроде Джека из "Титаника", наезжающего на Nyan Cat, и Нео, уклоняющегося от монет Doge в "Матрице".
🎓 Школьная диорама представляет знаменитых киногероев, преподающих предметы, связанные с мемами, объединяя популярное кино и интернет-юмор в классах, возглавляемых Гэндальфом, Парнем и Вилли Вонкой.
🛍 Новый облик рынка сочетает бруталистские киоски, акварельные дорожки и войлочные товары, отмечая гармоничное слияние традиций и инноваций Дубая в уникальной арабской рыночной среде.
ControlNet для SD v2.1
😳 Thibaud обучил ControlNet для Stable Diffusion v2.1, сейчас уже есть моделька Canny, Depth, HED, OpenPose.
🥳 Для обучения использовалось 300 тысяч картинок из LAION open датасета.
Как любитель генерить на v2.1 считаю что эта новость прекрасна!☺️
еще веса для Diffusers
Читать полностью…
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"
GitHub проекта: https://github.com/microsoft/visual-chatgpt
RunwayML выпустила Gen-2
🔥 Генерацию видеоряда без референс видео только используя:
— Текст
— Картинку
— Картинку + текст
📕 Пока доступ есть у бетатестеров Gen-1 и ограничения в одну генерацию за 10 минут. Эра видеонейронок идет со всех сторон!А на
втором канале выложу завтра тестовые генерации.
За наводку спасибо @too_motion
ModelScope + Anime Finetune
🔄 Animov-0.1 — аниме файнтюн ModelScope text2video алгоритма обученного на датасете видеоряда в размере 384x384(Для этого действительно много GPU врум-врум нужно).
И теперь доступен для Automatic1111!
😳 Генерация видео длительностью 2 секунды спокойно влезают в 8.6 GB видеопамяти.
Extension ModelScope для Automatic1111
Файнтюн веса под Auto1111
Файнтюн веса под Diffusers И никаких вотермарок shutterstock
Segment Anything
[Meta AI]
Итак ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.
Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.
SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".
Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.
Мало того, веса и код модели полностью открыты!
Сайт проекта
Demo
@ai_newz
Вышел Stable Digest #4
🐱 Это визуально-информационная работа совместно со Stable Diffusion и коммьюнитти, дайджест пестрит красивыми генерациями. Посмотреть его самим можно тут.
Я выписал то, что меня завлекло:
🍎 Небольшое интервью с BLACK.AI (Работы BLAC выставлены в галерее Mecenate Fine Art Gallery в Риме)
, где мне большего все понравилась такая вещь:
Что касается цитаты дня, то первое, что приходит мне на ум, это: «Творчество — это величайший бунт в мире». - Ошо🔥 Так же рассказали про DreamStudio:
Эта цитата говорит о силе творчества и той роли, которую оно играет в оспаривании норм, раздвигании границ и вдохновляющих переменах. Я думаю, что это подходящее настроение для движения искусства искусственного интеллекта и невероятных возможностей, которые ждут впереди.
И ещё одна новость про #midjourney. И она супер.
Добавили свой img-to-text!
Кто не знает — это когда вы загружаете свою картинку и на выходе получаете промт, то из чего она состоит. Это очень полезно, когда нужно деконструировать какой-нибудь визуал, чтобы собрать из его частей новый. Мало того, MJ выдает сразу четыре промта + по ним сразу же можно сгенерировать новое изображение.
Это круто:
1. Обучение промтингу для новичков становится гораздо легче + опытным можно подсмотреть много нового.
2. В комбинации с референсным изображением можно получить новый уровень контроля.
3. Это все-таки в рамках модели MJ. Img-to-text для Stable diffusion существуют давно, но он своеобразный.
4. Дают ссылки на артистов, если они попадают в промт.
В примере реваая попавшаяся фотография Тбилиси и результат генерации. Я кстати не знал, что такое пропорции можно задавать.
Вызвать командой /describe
RunwayML Gen-1 теперь доступен каждому
🍎 Попробовать можно по этой ссылке
🐱 Для всех доступно 400 кредитов, по 14 кредитов тратится на 1 секунду видеогенерации. В среднем для всех можно попробовать 28 секунд видео. Это хватит чтобы посмотреть возможности генераций.
📕 Как пользоваться? Загружаем от 1 до 3 секунд видеоряд, затем выбираем либо уже готовый стиль, либо подгружаем, либо описываем текстом стиль, схоже на SD по промптингу. Можно настроить seed и стиль влияние картинки/текста на референс видео. Главное убедиться что выбрали стиль, иначе кнопка не активируется
📕
🔥 RunwayML уже сообщил о Gen-2, где генерации видео возможно только по текстовому запросу, сейчас нужно еще референс видео. Больше про Gen-2 можно почитать тут.Кидайте свои лучшие работы в комменты
"Синтетический ренессанс" — это дальновидное произведение искусства, объединяющее человеческое творчество и искусственный интеллект, символизирующее безграничные возможности искусства, созданного искусственным интеллектом, 3D-технологий и будущего инновационного и доступного музейного опыта.
Описание картин получилось после брейншторма нескольких выдуманных художников в GPT4, самое удивительное и интересное создавать разных личностей и предлагать нейронке общаться ими и придумывать новые идеи. Тем самым спасая свой мозг и нервную систему от такого же процесса, хех. При этом получая прекрасный результат общения нескольких выдуманных художников.GPT4 для промпта, MJ v5 для генерации
Zero-1-to-3: Zero-shot Одна картинка в 3D
🔥 Фреймворк для изменения точки зрения камеры на объект, учитывая только одно изображение RGB. можно поиграться в huggingface демо, работает приятно хорошо + дает несколько вариантов для измененного положения. Вытаскивать полноценный 3D формат можно в коде, он доступен. Правда авторы говорят, что настройки для лучшего качества реконструкции вам нужно будет нащупать самим.
INFO—PAPER—DEMO—GITHUBПолучается совсем скоро картинка в 3D?
🤔
Compositional 3D Scene Generation
Проектирование сложных 3D-сцен было утомительным ручным процессом, требующим знаний в предметной области. Появляющиеся генеративные модели преобразования текста в 3D демонстрируют большие перспективы для того, чтобы сделать эту задачу более интуитивной. Новый алгоритм создает локально обусловленную диффузию как подход к композиционной диффузии сцены, создавая контроль на областями и текстовой связкой при этом генерация выглядит бесшовной.
INFO—PAPERКода нет пока, но количество анонсов про 3d нейронки очень радует
Если не устали, продолжаю анонсить в течение дня
LERF: Language Embedded Radiance Fields
🐱 Продолжая про Nerf вот интересный алгоритм сегментации Nerf объектов. Это позволит намного быстрее собирать данные для больших моделей textTO3d
INFO—PAPER—EXAMPLES—CODE(обещают выложить)
😶🌫️ И тут же интересный PAPER, который улучшает меш после Nerf рендера. В примерах статьи действительно приятные улучшения. Пока только статья без кода, но почитать приятно такое. А еще тут какой-то движ с 3d нейронками...
✨ Началась ежегодная конференция Nvidia GTC:
https://youtu.be/DiGB5uAYKAg
Основатель OpenAI тоже будет выступать
ДАЙДЖЕСТ за 2 недели
😳 GPT-4 - Ууух, не могу пока наиграться, на данный момент стоит ограничение в 25 сообщений в 3 часа, начиналось со 100 сообщений в 2 часа. Что уже известно:
- Встроенная модель в BING как раз была GPT-4. LINK
- Пока закидывать изображения для анализа нельзя, но такая возможность есть в GPT-4. LINK
- Модель прекрасно объясняет шутки. Пишет код и даже решает тесты и экзамены. TECH REPORT
Пока модель доступна только для пользователей ChatGPT+(платной версии ChatGPT) и открыт waitlist на API.
Создал кстати виртуального художника и
взял у него
интервьюGPT4 + Midjourney v5🍎 Modelscope - text2video opensource модель, пока мало секунд и работает мощных GPU. Еще Shutterstock вотермарка постоянно встречается. При этом результат на выходе выходит цельный, угадываются движения и предметы. Мемов пока больше, чем годноты, но через несколько месяцев явно будет веселее.
(Запускать лучше на А100)
🔥 GIGAGAN - Ганы возвращаются и предлагаю не только плавное перетекание между картинками, но и 4K картинки за 3,66 секунды(512 за 0,3 секунды), а так же какой-то безумный апскейлер. Кода нет =(
INFO—PAPER/settings
выбрать 5 версиюОфициальный пресс релиз о GPT 4:
https://openai.com/research/gpt-4
Из интересного, она на вход может принимать картинки, не просто текст 🌚 про параметры я еще не почитал сам
Записаться в API вейтлист можно тоже по ссылке выше.
Кстати, если у вас ChatGPT Plus то вам дадут к ней доступ и так
Новые модели text2img, которые сейчас выпекаются на GPU 🥘
🔥 IF от Deepfloydai. Ожидаем очень релиза. Модель действительно хороша в генерации текста в артах, через промпт.
🍎 StableDiffusion-XL от StabilityAI. Это похоже SD 3.0. Но больше инфы у меня нет. Есть только примеры генераций:
EXAMPLES
🔄 Composer от AlibabaGroup. Схожая с ControlNet модель. Но есть свои особенности, например, генерация через предложенную палитру.
INFO—PAPER—GITHUB
🐱 DALL·E 2 experimental от OpenAI. Хотя тут еще анонс GPT-4, которая мультимодальная и обещают генерацию не только текста, но и картинок и звука. Представьте, ChatGPT на стеройдах.
EXAMPLES
🤫 MidJourney v5 от midjourney. Если вам надоело уже качество v4, кажется это как раз нечто новое, с пальцами еще попадаются веселые примеры, но интересен сам момент обучения, комьюнити сильно помогает отбирая лучшие результаты во время тренировки.
EXAMPLES
🔄 The-Model-After-SDXL™ от StabilityAI и MysteryGuitarM:
Промпт в одно слово.
Никаких трюков. Никаких негативных промптов. Без входящих картинок.
EXAMPLES
Многие модели уже тренятся с человеческим подкреплением, где комьюнити самостоятельно улучшают эстетику моделей, выбирая лучшие из генераций в момент обучения модели.
Пример для SD Тут можно погенерить бесплатно запросы и выбирать лучшие по вашему мнение.
Пример для Midjourney Тут нужно авторизоваться через дискорд и выбирать одну из двух генерация. Самые интересные можно себе сохранить
😶🌫️
Автор арта -illustrata.ai
Интересная статья от нее, как она становилась AI artist во втором Stable дайджесте.LINK
Еще вагон видеонейронок ожидается...
Читать полностью…
Коротенькое видео, на котором очевидна консистентность композиции и форм, но при этом все остальное переосмысляется (в рамках, конечно, промта с котом).
#Controlnet — изучать и изучать, так как конфигураций использования, даже не учитывая что он постоянно обновляется — миллиард. Продолжаю тренироваться на кошках. 😩