Пришел инвайт на закрытую бету Юнитевского Sentis.
Это кросс-платформенная библиотека, которая позволяет запускать нейросети прямо из Юнити, в том числе рантайм, в том числе на мобильных устройствах. Проще говоря, теперь инференс можно делать в игре (или приложениях), в процессе геймплея.
Несколько первых впечатлений:
1. Sentis устанавливается как обычный пакет через менеджер. В целом начать работу можно очень быстро.
2. Можно использовать и в рантайм, и в редакторе (например заранее генерировать ассеты для игры).
3. Работает с моделями в формате ONNX, скорость хорошая, но без волшебных сюрпризов.
4. Приятно видеть код на лучшем языке программирования вместо опостылевшего Питона. На первый взгляд библиотека устроена логично и просто, хотя ей еще и далеко до Torch в плане функционала.
5. В демке реализован простой пост-процессинговый эффект Find edges, который обрабатывает нейросетью картинку в реальном времени через C#-код в рендер-фиче. Конечно, просадка фпс по сравнению с аналогичным шейдером присутствует, но это любопытное применение и, самое главное, оно уже работает!
В общем, буду тестировать. Обучить нейросеть для принятия решений ботами в сложной игровой ситуации звучит как план. Осталось понять, насколько быстро это работает.
Правила закрытой беты достаточно строгие в плане того, что можно показывать. Так что вот вам пока официальный анонс месячной давности:
https://www.youtube.com/watch?v=Slw9hnILnes
Что думаете? Взлетит или нет?
#unity #sentis #gamedev
Гугловский Бард выкатился в открытый доступ, бесплатно и в том числе на русском языке. Тесты показали, что со многими задачами он справляется не хуже GPT4. Последовательности чисел продолжает, код пишет, лексические парадоксы понимает.
Прямо из интерфейса можно запускать код и проверять его в коллабе.
Не ура ли?
https://bard.google.com/
#llm #bard
минутка флюидной красоты - целиком на нейронках
в этой завораживающей анимации органично соединились два важных для меня элемента:
лора, обученная на кислотных флюидных картинках. рад поделиться ей на civitai
собственный аналог дефорума созданный с помощью Stable Houdini. он позволяет использовать Automatic1111 как движок генерации а все команды отправлять из Houdini.
нодами очень удобно и наглядно удалось собрать мощный сетап - он идеально подходит для 2д флюидной анимации и не только - гифки в комментах
сетапом тоже буду рад поделиться. и ваши лайки и репосты мотивируют меня поскорее подготовить файл и стрим на ютуб - о том как им пользоваться. всем любовь!
LoRa AcidFluid
Stable Houdini
@тоже_моушн
Потестил инпейнт в ControlNet, который работает без промпта, "как в новом Фотошопе". Довольно прикольная штука.
Менять части изображения, затирать объекты можно было и раньше, просто надо было подбирать промпт, по которому генерируется изображение внутри маски. Теперь все стало проще.
Чтобы воспользоваться новой фичей достаточно обновить расширение ControlNet, модель инпейнта при этом используется старая. Можно на всякий случай обновить и модель control_v11p_sd15_inpaint отсюда: https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main
Во вкладке text2image Автоматика поместите свою картинку в контролнет, выберите препроцессор Inpaint only и модель control_v11p_sd15_inpaint. Скопируйте разрешение картинки из контролнета в настройки генерации (кнопка в виде стрелочки вправо и наверх), включите Pixel Perfect и рисуйте маску. Поле Prompt нужно оставить пустым. Можете поиграть с ControlMode, он немного влияет на результат.
По моим наблюдениям лучше всего этот способ работает с маленькими масками. Чем больше маску вы попробуете залить, тем сложнее Контролнету будет понять, что нужно нарисовать, и придётся помогать ему промптом.
На текущий момент в расширении есть баг: когда вы стираете маску и начинаете рисовать новую, старая все еще сохраняется в кэше и будет влиять на генерацию. Надо удалить и заново выбрать картинку.
#A1111 #controlnet
Вы наверняка слышали про Instruct pix2pix. Это модель, которая позволяет менять картинку на основе текстового запроса типа "make his hair blue" или "turn it into a wood carving".
Так вот, изначальный вариант pix2pix, который был реализован в Автоматике, уже устарел. Теперь гораздо удобнее пользоваться pix2pix моделью КонтролНета. Она позволяет работать с хайрезными изображениями и в ней не нужно париться с двойной настройкой Denoising strength.
Работает прямо в text2image. Добавьте исходную картинку в ControlNet, оставьте препроцессор в "none", выберите модель "Control_v11e_sd15_ip2p", поставьте правильное разрешение картинки, наберите вашу инструкцию в поле промпта и жмите Generate.
Например я взял исходную картинку с древним городом, превратил ее в схематичный рисунок, в зимнюю сцену и в ночную с огнём.
#совет #A1111 #stablehoudini
Между тем на реддите назрела новая драма, связанная с ИИ-артом. Пользователь утверждает, что Стим отказался публиковать его игру из-за ассетов, созданных в Stable Diffusion.
С большой вероятностью это была просто плохая игра, то, что называется ассет-флип, но пример показателен, потому что в ответном письме Стима упоминаются именно авторские права на арт, и если это может быть формальной причиной отказа, об этом стоит задуматься.
Перевод ответа Стима:
Мы обнаружили в вашей игре интеллектуальную собственность, принадлежащую третьим лицам. В частности в вашей игре есть визуальные ассеты, сгенерированный ИИ на основе материалов, принадлежащих третьей стороне. Поскольку законное авторство таких ассетов остаётся серой зоной, мы не можем опубликовать вашу игру с этими ассетами, до тех пор, пока вы не сможете подтвердить, что вы обладаете правами на всю интеллектуальную собственность в датасете, на котором тренировался ИИ, создавший ассеты в вашей игре.
Играл с генерацией ландшафтов и проиграл.
Нагенерировал 20 хайрезных спутниковых карт с помощью Лоры MapSatimageEU и вот такого промпта:mapsatimageeu, Satellite map of a rocky mountain range, highly detailed, 8k, sharp, desert valleys, mountain tops, <lora:MapSatimageEU_V1.0_ST_LoRa:1>
Препроцессором Depth Leres превратил их в карты глубины, создал террейн, просимулировал эрозию, сохранил в кэш.
Вроде бы получились неплохие заготовки для дальнейшей обработки.
Поскольку работаю в Гудини, весь процесс от генерации картинок до рендера финальных секвенций запускается одной кнопкой.
#stablehoudini #stablediffusion
Ищу онлайн-сервис со Stable Diffusion, хочу жену подсадить на это дело.
Midjourney неплохой вариант, но Discord в качестве фронт-енда это совсем извращение на любителя.
Пока что я остановился на leonardo.ai (не реклама). Под капотом обычный Stable Diffusion, невысокая цена.
Плюсы:
- Есть сторонние модели! Это киллер-фича, поскольку здесь я также могу использовать DreamShaper или Delibirate, как и на локальном SD.
- Есть инпейнт и аутпейнт. Unzoom, удаление бэкграунда, апскейл и тайлинг
- Возможность обучать на собственных датасетах.
- Есть бесплатные генерации, 150 токенов в день.
- КонтролНет. Есть три модели - простой OpenPose, Depth и Canny.
- Image2Image
- Генерация текстур для Obj-моделей, но я не разбирался, если честно. Скорее всего шляпа.
- Community Feed. Можно смотреть чужие работы и сразу же пробовать понравившиеся настройки и промпты в своих генерациях.
Минусы:
- Закрытость и минимум информации. Почему-то все подобные сервисы делают вид, что внутри у них суперсекретная неонка, и скрывают от пользователя подробности работы. Например, в том же обучении непонятно, что именно тренируется - Lora, Hypernetwork или сразу DreamBooth.
- Скрытые параметры. Параметров чуть больше, чем в других подобных сервисах, но все равно мало. Например тут очень нелогичные и непонятные опции апскейла. При этом в Coming Soon обещают дать возможность их редактировать - но только пользователям продвинутого плана. Бред.
- Нет привычных лор, эмбеддингов и гипернетворков. Очень жду сервис, который позволит их использовать.
В общем, первые впечатления неплохие. По крайней мере это лучше какого-нибудь DreamStudio, Scenario.gg и Lexica.art.
Если у вас есть на примете подобные недорогие сервисы со стейблом -- напишите в комментариях.
https://leonardo.ai
Чтобы зарегистрироваться надо оставить почту, через какое-то время (несколько дней) вам придёт инвайт. Закрытый клуб, понимаете.
#сервисы
Я сделал англоязычную версию видео про Stable Houdini. Нейросетью, конечно. Если не сложно - поставьте апвоут на Реддите и лайк на Ютубе, буду благодарен.
https://www.reddit.com/r/StableDiffusion/comments/12zsjn0/i_released_my_set_of_houdini_digital_assets_for/?sort=new
Pez Dispenser - это скрипт, который работает примерно как текстуальная инверсия, только вместо эмбеддинга он выдаёт промпт. И это довольно любопытный инструмент.
Итак, на вход скрипта подаётся картинка, или готовый промпт, который нужно перфразировать/сократить.
https://huggingface.co/spaces/tomg-group-umd/pez-dispenser
Поставьте внизу Prompt length подлиннее и попробуйте поиграться. Генерация может занимать несколько минут.
Pez Dispenser работает с OpenCLIP-ViT/H, так что его результаты будут более адекватными с моделями Stable Diffusion 2 или Midjourney. Но даже если вы такой же старовер, как я, и больше любите модели 1.5, все равно вы получите очень интересный результат, пусть и далёкий от исходного.
Диспенсер выдаёт очень сложные промпты, иногда похожие на набор случайных слов. Там могут быть и эмодзи, и неожиданные знаки препинания, и какие-то странные сочетания букв. И это хорошая стартовая точка для экспериментов.
Вот промпты для приложенных к посту картинок, которые я нашел с помощью Диспенсера:fineart cgi realistic influencer awarded tamannayoon seo best lsd psychedelic lollajellyfish reviewed nominated, vivid colors
spective biotic futuristic cyberpunk refurbished alien illustration bohemian watercolour artwork gerry aik strange forest gloomy trees
digital art painting of jongin manainactive percy ferns gill priory castle yeezy pagan foggy dark submergreenery lores austerity by greg rutkowski
painting of orchestrbryce landscape korubberplaceabstract arch free solid abstract autodesk bryce knuckles leaked olly, vivid colors, high contrast
alain edelsnowy solstice yellow 💤folklorethursday audubon goddess allergies illustration niallaest festivities wawx holidays
#промпты
Вы наверняка слышали о новой модели Stable Diffusion XL от Stability AI. Её многие называют убийцей Midjourney. Мол, фоторильность зашкаливает, супер-криспи-шарп-мега-кволити-мастерпис генерации из коробки.
Может, я чего-то не понимаю, но результаты у меня получаются плохенькие. Даже хуже стоковой 1.5, не говоря уже о файнтюненых моделях.
Единственное, чем SDXL хороша, это способностью писать тексты. Это да, это круто.
Попробуйте сами и отпишитесь, что я не так делаю? Сама модель пока в бете, потестить можно тут:
https://clipdrop.co/stable-diffusion
#stablediffusion
Бегло потестил Sad Talker, скрипт для оживления портретов, который недавно появился в виде расширения для Автоматика. По большому счёту это тот же Thin Plate, выдающий видео размером 256x192, но с дополнительным апскейлом и восстановлением лиц.
Авторы утверждают, что результат настолько реалистичный, что им пришлось добавить вотермарк. Правда у меня случился какой-то глюк и файл sadtalker_logo.png в папке extensions/SadTalker/docs почему-то заменился на пустую прозрачную пнгшку, и вотермарк пропал (знаю, знаю, странное дело с этими багами).
Ну а по впечатлениям:
- Голос нужно отдельно обрабатывать, нормализовывать и компрессировать, иначе рот может открываться не до конца.
- В целом как будто нормально выглядит, но разрешение всё портит.
- Лучше работает с реалистичными изображениями.
- Параметров в Автоматике кот наплакал, при том, что сам скрипт позволяет настраивать многое.
- Установка забагованная, мне пришлось вручную скачивать модели и копировать их в папку.
- В правильную папку результат не записывает, надо смотреть в папке Results.
- Нужен установленный ffmpeg.
- Для запуска требует ключ --disable-safe-unpickle, к тому же (надеюсь ложно) некоторые антивирусы находили трояна в файлах с весами. Если вы не такой рисковый, чтобы доверять китайцам, лучше дождитесь пропатченной версии.
https://github.com/Winfredy/SadTalker
#sadtalker #анимация
Если вы работаете над серией, комиксом, раскадровкой (или аккаунтом на онлифанс), то вы наверняка сталкивались с проблемой повторяемости лиц.
Когда вам нужно воспроизводить конкретное лицо, то тут не обойтись без обучения. Но если вам просто нужен повторяющийся персонаж, то вот вам клёвый трюк, который я недавно открыл.
Дело в том, что нейросеть уже знает внешность многих людей, я имею в виду самых разных публичных персон. И А1111 умеет смешивать промпты. Поняли, куда я клоню?
Просто скрестите несколько известных личностей и получите новое лицо, которое будет генерироваться почти одинаково в 90 процентах случаев.
Есть две опции. Во-первых, можно начать генерировать одного персонажа, а потом переключиться на другого. Это делается таким выражением в квадратных скобках: [Keanu Reeves:Emma Watson:0.4], где 0.4 - это момент начала генерации второго персонажа, то есть 40 процентов шагов. Но так можно скрестить только двоих.
Есть другой способ:
[Keanu Reeves|Emma Watson|Mike Tyson] - разделяем персонажей вертикальной линией и они будут генерироваться поочередно через шаг.
Дальше добавьте в промпт детали внешности (цвет глаз, волос, особенности) и одежды, и дело в шляпе.
Я даже подготовил вам туториал в виде комикса.
#совет
Победное шествие ControlNet заставило многих забыть о стареньком скромном скрипте под названием Image2image Alternative Test, а между тем он, пожалуй, лучше других справляется с задачей стилизации картинки.
Он работает достаточно просто. Исходная картинка прогоняется через сэмплер Euler в обратную сторону, то есть превращается в шум, из которого она могла быть сгенерирована. Этот шум используется для генерации с измененным запросом.
Понимая алгоритм работы мы можем легко объяснить настройки скрипта.
1. Оба запроса, исходный и новый, должны почти совпадать, отличаясь лишь в деталях
2. Число шагов в Stable Diffusion и в Alternative test должно быть одинаковым. Сколько шагов мы сделали в сторону шума, на столько же мы должны продвинуться обратно. Чаще всего приходится их задирать выше 50
3. Скрипт работает только с сэмплером Euler
4. CFG Scale в данном случае работает как сила эффекта. Когда он ближе к нулю, запрос игнорируется и используется шум, а значит мы будем ближе к исходной картинке. Авторы скрипта советуют не поднимать его выше 2, но это ерунда, можно ставить и больше, просто будьте готовы к значительным изменениям
5. Denoising strength должен быть равен 1
6. Decode CFG Scale - это CFG, который используется при генерации шума. На практике почти всегда приходится его делать очень низким в диапазоне 0.5-1.5
7. Randomness позволяет добавить немного случайного шума. При нуле генерация будет все время одинаковой
8. Sigma adjustment - с этой галкой цвета будут больше соответствовать оригиналу
Алгоритм работы такой:
1. В img2img загружаете исходную картинку
2. Выбираете в списке скрипт img2img alternative test
3. В Original prompt записываете описание исходной картинки, можно воспользоваться Interrogate Clip
4. Снимите галку Override prompt и в запрос самого img2img запишите измененный промпт
5. Уменьшите CFG Scale до 1-2
6. Установите Denoising strength в 1
7. Включите Sigma Adjustment for finding noise for image
8. Добавьте КонтролНет, если испортилась исходная композиция
"Святой Фома, покровитель реалистов, почему обошёл ты меня своей милостью?"
В связи с выходом новой версии Midjourney все вокруг писают кипятком от фотореалистичных картинок. А я вот не понимаю, зачем вам фоторил? Вот вы сгенерировали себе подружку, это ладно, а что дальше?
Я вижу несколько вариантов использования фотореалистичных работ, где основной (помимо порно) - это замена фотостокам, которые и так всегда стоили десять копеек в базарный день. На мой взгляд гораздо больше смысла в качественной, минималистичной стилизации типа тех, что во вложении. Почему-то такие результаты меня впечатляют больше очередной "фотографии" со студийным светом и ретушью.
Но может я сужу со своей колокольни и чего-то не понимаю. Расскажите, как вы используете фотореалистичную генерацию в коммерческих проектах?
Погонял SD XL 1.0 в автоматике и Stable Houdini, хочу поделиться впечатлениями. Впечатления мои личные, могут не совпасть с вашими, возможно я в чем-то не до конца разобрался.
Сначала о плюсах:
- Хороший фоторил в том, что касается людей. Красиво прорисовывает волосы и текстуру кожи.
- Пальцы получаются хорошо, хотя и далеко не всегда.
- Разрешение 1024х1024 (если делать меньше, картинка портится).
- Из коробки без хайрез фикса можно генерировать 1920х1080, но это лучше работает на стилизации.
Минусы:
- Модель нормально так кушает память, как RAM, так и VRAM. Говорят разными аргументами можно добиться работы на компах послабее. У меня 32 гига оперативки и 4090. Если у вас компьютер слабее и получилось завести, то отпишитесь, какая конфигурация?
- Чекпойнт загружается долго, несколько минут с SSD.
- Что стилизация, что фотографии не людей, получаются так себе. Точнее, результат плавающий. Иногда хорошо, иногда очень грязно. Добиться красивой лаконичной рисовки сложно. Модель норовит добавить штрихи и прочий мусор.
- На неквадратных фотографиях портятся пропорции объектов. На вертикальных тела вытягиваются, выглядит страшно. На горизонтальных у машины может вытянуться капот.
Пока выводов у меня никаких нет. Хайрезная модель - это круто. Из коробки она генерирует лучше, чем стоковая 1.5, но проигрывает той же Dreamshaper. Будем ждать нормальных чекпойнтов на ее основе.
#stablediffusion #sdxl
Вчера на DTF вышла статья Олега Скутте, которому Steam отказал в публикации его игры из-за артов, созданных Stable Diffusion.
https://dtf.ru/gameindustry/1915460-valve-otklonyaet-igry-ispolzuyushchie-ii-tehnologii
Я уже писал о подобном случае ранее, причина та же, неясность с авторскими правами на датасет:
/channel/dreamsrobots/114
В статье на ДТФ приведен список других игр, отклоненных по той же причине. Я сначала подумал, что проблема была в том, что AI-Powered было вынесено в название игры, но несколько игр из списка являются обычными визуальными новеллами, и в их описании не упоминается ИИ, по крайней мере на Стим-странице.
Игры из списка не блещут красотой (не в обиду авторам, они молодцы), но также не блещет ей AI Roguelite, которая вполне себе продаётся: https://store.steampowered.com/app/1889620/AI_Roguelite/.
Мне кажется, это интересная тема для обсуждения, потому что я знаю инди-разработчиков, которые делают игры с контентом из Stable Diffusion или Midjourney и возможно сейчас им приходится пить зеленый чай с ромашкой, чтобы прийти в себя.
Мои мысли:
1. Крупные игровые студии уже вовсю используют Стейбл в своих пайплайнах, это уже не секрет. Другое дело, что они достаточно серьезно обрабатывают результаты генерации, и у них есть ресурсы, чтобы решить все возникающие юридические вопросы.
2. Число игр, созданных с помощью ИИ будет только расти. Быстрее всего будет увеличиваться количество трешовых игр, сделанных на коленке за месяц, от них никуда не деться. Юридическая сторона вопроса будет подтягиваться ещё долго, тут есть риски и для разработчиков, и для издателей.
3. Надеемся, что Valve выпустят формализованные правила использования ИИ-контента на Стиме, чтобы не полагаться на настроение ревьюверов.
4. Если вы инди-разработчик, то, во-первых, привыкайте обрабатывать результаты работы нейросетей, причем обрабатывать сильно. А во-вторых, не палите использование ИИ. Не надо писать "First AI-powered game ever!" в описании. Хорошей идеей будет обучить нейросеть на картинках, на которые у вас есть права и задокументировать процесс. А еще подумайте насчёт издателя.
5. Сложный и дорогой путь: попробуйте зарегистрировать авторские права на контент, чтобы приходить в Стим с бумажкой.
6. Мне кажется, если игра полностью построена вокруг сгенерированного контента и не может предложить ничего сверх этого, то ей дорога на itch.io или другие сайты, которые с удовольствием хостят экспериментальные игры. Сомневаюсь, что Стим отклонит клевую инди-игру с интересными механиками за то, что в ней спрайты сгенерированы нейросетью.
Cреди нас есть инди-разработчики или издатели? Что вы думаете?
#авторское_право
Я добавил поддержку Kohya_ss в Stable Houdini. Теперь можно тренировать Лоры прямо из Гудини, встроив тренировку в свой пайплайн.
Если вам надо воссоздать конкретный стиль, объект или персонажа, Лора вам в этом поможет. Тренировка с адекватными параметрами достаточно быстрая, от 5 минут на gtx4090 до 40 на старых картах, это вам не "ставить рендер на ночь", дольше возишься с датасетом, чем с самим обучением.
Нода для обучения в Гудини даёт возможность делать wedge, то есть автоматически, в пакетном режиме, создавать Лоры с разными значениями параметров. Не знаете, на что влияет Network Rank или Learning Rate? Можно за ночь обучить пару десятков или даже сотню Лор и проснуться к готовым картинкам для сравнения, если вам такое нравится.
В комплекте идут два готовых профиля, Простой и Средний. В них разное число параметров выведено на интерфейс. Все настройки стандартно-дефолтные для хорошего результата, так что можно втыкать Простой профиль и сразу тренировать Лоры. Профили универсальные, так что я потом еще добавлю тренировку Dreambooth и Textual Inversion для истинных ценителей жанра.
А для подготовки датасета есть отдельная нода SD Dataset Preparation, которая тянет картинки в нужную папку, кропит и скейлит, при необходимости создает текстовые описания. На мой взгляд пользоваться удобно.
Для использования нужно обновить Stable Houdini с Гитхаба. Если среди нас есть ниндзя обучения, владеющие ещё и Гудини, буду благодарен за тестирование и обратную связь.
Урок запишу позже, а пока вот вам текстовое руководство, как этим делом пользоваться:
https://github.com/stassius/StableHoudini/wiki/How-to-train-LoRA
#stablehoudini #stablediffusion #lora
Inpaint-модели отличаются от остальных тем, что позволяют использовать форму черно-белой маски при генерации. Модель встроит новое изображение точно в ее границы.
До недавнего времени инпейнт-модели нужно было отдельно получать хитрыми операциями из существующих. Но теперь у нас есть инпейнтинг прямо в ControlNet 1.1.
Переключитесь в Image2image, добавьте исходное изображение и маску, сделайте все необходимые настройки, как в обычном инпейнте.
Теперь включайте контролнет, выбирайте в нем Inpaint-препроцессор и Inpaint-модель. Важно, что при этом картинка в самом контролнете должна отсутствовать -- в этом случае он возьмет её из маски image2image. Если вы работаете в Stable Houdini, переключитесь в Image type - File и сотрите имя файла.
Вот и вся хитрость, теперь абсолютно любой чекпойнт будет работать как Inpaint. На приложенных примерах я сгенерировал локацию старинного храма и добавил дверь в инпейнте.
#stablediffusion #A1111 #совет #controlnet #stablehoudini
Если сделать несколько ракурсов с картой глубины персонажа на одном изображении, а потом использовать его в КонтролНет, то получится более-менее консистентная раскадровка.
В приведенном примере я сделал один кадр 640х640, поместил в сетку 1280х1280. Но это сработает и с другими соотношениями сторон.
Так можно генерировать ключевые кадры для EbSynth, если вы понимаете, о чём я.
В комментариях напишу, как это сделать в Гудини автоматически, без размещения ракурсов вручную.
#stablediffusion #совет
Вы только посмотрите, какую красоту сделал наш подписчик Рустам со Stable Houdini!
Лайк и ретвит, пожалуйста!
https://twitter.com/KRu3ty/status/1655980595703316480
#stablehoudini
Я записал второй урок про работу со Stable Houdini, рассказал про новые ноды и подробно описал процесс работы над конкретной задачей.
https://www.youtube.com/watch?v=1-kPfLz-Uy4
#stablehoudini #stablediffusion
Немного новостей про Stable Houdini.
Я добавил две новые ноды:
- SD Preprocessor, которая позволяет получать результат работы препроцессора из Контролнета и генерировать карты глубины, нормалей и так далее.
- SD Png Info, которая читает параметры генерации из картинки и сохраняет их в атрибутах для переиспользования.
На ноде SD Prompt добавился выбор эмбеддингов и гипернетворков. Лор пока нет. Они работают, но их нужно копировать из промпта в Автоматике.
Так что рекомендую обновиться.
Все значимые обновления я описываю в разделе Announcements на Гитхабе:
https://github.com/stassius/StableHoudini/discussions/categories/announcements
Кстати, поставьте звездочку на Гитхабе, что ли? Вам не сложно, а мне приятно.
#stablehoudini
Итак, свершилось. Я только что выложил мой набор инструментов для работы со Stable Diffusion из Гудини в открытый доступ. Для всех, даром, и пусть никто не уйдёт обиженным. Все, что нужно знать, в видео.
Нагенерируйте мне красоты!
https://www.youtube.com/watch?v=Un_b8cvzxcw
Минутка бесполезной информации.
А вы знали, что Stable Diffusion умеет воспринимать эмодзи в качестве промпта, причем у них свои собственные токены в словаре?
Вот вам, например, картинка по запросу 👱🏼♀️ 🩱 🏖
#stablediffusion
В принципе, я понимаю, зачем нужна услуга определения картинок, созданных нейросетями. Как минимум это было бы полезно банкам, сайтам знакомств и прочим сервисам, где требуется предоставлять свои фотографии, как дополнительный слой антифрода. Но, боюсь, это просто невозможная задача.
Потестил очередной такой сервис, https://aiornot.optic.xyz/
Что могу сказать? В целом он работает. Но.
Во-первых, он определяет все мои генерации, как созданные Midjourney, хотя я загружал прямо с тегами Автоматика. Уже это многое говорит об уровне старания разработчиков.
Во-вторых, определялка ломается банальным добавлением двух процентов нойза в фотошопе. Можно будет плагин для Автоматика под это дело написать, чтобы меньше времени тратить.
Было бы ещё интересно проверить на ложное срабатывание. Но даже так уже понятно, что этот сервис нужен скорее для облегчения кошельков инвесторов. Если защита такого рода обходится за одну минуту, то какой в ней толк?
В догонку к посту про создание повторяющихся персонажей путём смешивания лиц знаменитостей. Вы можете прокачать эту технику, если воспользуетесь расширением Embedding Merge (устанавливается стандартно из списка расширений Автоматика).
Оно позволяет смешивать промпты с весами за счёт создания уникального эмбеддинга. Это не совсем то же самое, что подмена промпта каждый шаг, но эксперименты показали, что работает очень похоже.
После установки расширения напишите в text2image промпт что-то вроде: <'Meryl Streep'*0.7 + 'Cate Blanchett'*0.6 + 'Kate Winslet'*1.5 + 'Audrey Tautou'*1.2>
То есть в треугольных скобках перечисляете персонажей в апострофах и складываете их знаком плюс. Каждого персонажа можно домножать на число.
Когда у вас получится нужное лицо, переносите этот кусок промпта вместе с деталями (например blue-eyed <'Meryl Streep'*0.7 + 'Cate Blanchett'*0.6 + 'Kate Winslet'*1.5 + 'Audrey Tautou'*1.2> with short straight blonde hair
) во вкладку EM в поле Your prompt. В поле Name of embedding впишите уникальное название, например char25, нажмите Parse.
Теперь весь этот запрос сохранится в эмбеддинг, который вы сможете вызывать из промпта по его имени, вот так: Portrait of char25
.
Так вы можете создать себе библиотеку повторяемых персонажей под каждый проект.
#совет
16 марта федеральное агентство по авторскому праву США выпустило документ под названием "Руководство по регистрации авторского права для работ, содержащих материалы, созданные ИИ".
Речь идёт не о каких-то поправках в законодательство, это просто разъяснения для тех, кто хочет зарегистрироваться как автор произведения. Но всё равно, это первый официальный документ на тему, так что давайте почитаем и разберёмся.
Сразу скажу, что моим преподавателем американского права был Сол Гудман, так что я могу где-то ошибиться, а где-то и соврать.
Итак, вы создали произведение искусства и хотите зарегистрировать на него авторские права. Что вам нужно знать?
1. Копирайт может защищать только результат труда человека. Если обезьяна сделает фотографию, она не сможет считаться её автором, потому что юридический термин "Автор" относится только к людям. Так что не стоит указывать Stable Diffusion, Midjourney или ChatGPT как соавтора.
2. Чтобы зарегистрировать авторское право, человек должен в значительной мере участвовать в создании произведения. Степень этого участия определяется отдельно для каждого случая, но уже понятно, что промпт таковым не является. Если вы просто сгенерировали картину или стихотворение, вы не сможете их зарегистрировать. Автор должен переработать произведение, видоизменить и дополнить его. Дополнительные итерации, такие как инпейнтинг, всё ещё считаются вкладом ИИ, а не человека.
3. Под авторское право могут подпадать только части вашего произведения, созданные лично вами. Например, комикс Zarya of the Dawn, в котором текст был написан человеком, а картинки сгенерированы Midjourney, был признан объектом авторского права как цельное произведение, но отдельные изображения из этого комикса уже не являются таковыми.
4. Сами промпты, при этом, могут быть достаточно значимыми, чтобы подпадать под копирайт. Это интересная сноска, у которой могут быть последствия. Представляете себе, можно будет зарегистрировать права на "8k, highly detailed, trending on Artstation"?
5. При подаче заявления на регистрацию авторского права автор обязан указать, какие части его произведения созданы ИИ и в какой степени они были переработаны. А большие части работы, созданные ИИ должны быть исключены из заявки.
6. Если вы не указали в заявке участие ИИ, и это было обнаружено позже, как произошло с вышеуказанным комиксом Zarya of the Dawn, регистрация может быть отозвана или пересмотрена.
Как будто вполне адекватные правила. Что думаете?
Сами разъяснения:
https://www.govinfo.gov/content/pkg/FR-2023-03-16/pdf/2023-05321.pdf
Заключение о комиксе Zarya of the Dawn. Кроме шуток, почитайте, там серьезный юридический разбор Midjourney.
https://www.copyright.gov/docs/zarya-of-the-dawn.pdf
#авторское_право
Дошли уши послушать недавний "Как делать игры" про нейросети. Есть несколько любопытных кейсов, но вот что любопытно: за почти два часа подкаста ни разу не упомянули Stable Diffusion. Все разговоры были про Midjourney, причём в духе: вот было бы круто к Midjourney прикрутить возможность переделать фрагмент изображения.
И это я не в пику гостям, я с интересом их послушал и не сомневаюсь в их профессионализме.
Я просто подумал, что нейросети так быстро развиваются, что нужно быть одержимым, чтобы хотя бы успевать читать все новости и поверхностно разбираться в том, что творится в этой сфере. А уж о том, чтобы протестировать каждую новую фишку, и речи нет. Это физически невозможно.
"Нужно бежать со всех ног, чтобы только оставаться на месте, а чтобы куда-то попасть, надо бежать как минимум вдвое быстрее!" Стоит выпасть из информационного поля на неделю, и всё, будто год прошёл, догоняй!
Это вызывает острое чувство Fear of missing out, что в конечном итоге может привести к выгоранию.
Мне кажется, сейчас такое время, что пора выбирать специализацию. Например заниматься только обучением, или стилизацией видео, или, я не знаю, лучше всех генерировать жаб, играющих на гитарах. По крайней мере мои попытки ухватить всё и сразу приводят лишь к разочарованию в способностях моего мозга.
Как вы сохраняете рассудок в этой гонке?
P.S. А подкаст, все-таки, послушайте. Он хороший.
https://www.youtube.com/watch?v=GLU6jH84iM0
#видео #мысли
Выдалась минутка, и я поверхностно потестил Kandinski 2.1 от Сбера, через сайт https://fusionbrain.ai/diffusion
Что могу сказать? Результаты интересные. Конечно, до Стейбла с прокачанными чекпойнтами не дотягивает по многим статьям, а на сайте вообще минимальный функционал: только промпт и аутпейнт (лучше бы сделали просмотр батчей и настройки нормальные, честное слово). Так что пока использование в каких-то реальных проектах под сомнением. Но в целом я рад за ребят и поздравляю их с релизом!
Если они сделают удобную и расширяемую оболочку, API, дадут инструменты для обучения и не будут закрывать свой продукт под семью замками, то может даже смогут потягаться с лидерами нейросетевой гонки.
Как будет время — потестирую локальную версию.
#kandinski