Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
А вот и код подвезли!
Под капотом SVD + sketch temporal controlnet + всякие хаки с аттеншеном.
Осталось только сделать depth controlnet, и "runwayml vid2vid gen2 есть у нас дома" готов!
Code
Paper
Project
@derplearning
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance (NeurIPS 2024)
И такой еще подход зарелизили.
Берем две референсных картинки: одну для стиля, другую для структуры, шатаем ими аттеншен, и получаем контролируемые генерации без гайданса, тюна, или контролнетов.
Похоже на reference controlnet (который контролнетом назвали видимо потому, что было лень объяснять)
code
paper
reddit
project
@derplearning
PortraitGen - Portrait Video Editing Empowered by
Multimodal Generative Priors
Интересный подход к video2video с объездом через 4D гауссианы.
Неожиданно, с кодом и претренами.
paper
git
project
Так и запишем: на чердаке больше не спрятаться
Robust Ladder Climbing with a Quadrupedal Robot
paper
Тем временем VisualRWKV не стоит на месте и уже подбирается к LLAVA по метрикам, при большей скорости и меньшем расходе памяти.
Когда они уже картинки начнут генерить, ну.
https://github.com/howard-hou/VisualRWKV
Индустрия через пару лет такая: «А чего бы нам не запускаться только на нейронных чипах?»
Думаете, Хуанг не пойдет на это, учитывая все его последние заявления? Отлично же картинку держит, не?!
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
https://www.youtube.com/watch?v=3sVZ_f6Rs-Q
его не ждали, а он жив
Вот держите еще немного утечек и Снапчат-метаверса.
Эван Шпигель, сам, без ансамбля, тизерит генеративный AI при создании линз.
Тут бы впору выпить за всех, кто зарабатывает на линзах, ибо он просто говорит давай чизбургер или котика - и оно моментально генерит (сначала 2Д-прокси, а потом 3Д(!) AR-объект. Он делает хорошее шоу - из зала люди кричат, что они хотят увидеть, а он просто говорит "imagine cowboy frog" и лягушка ковбой возникает в 3Д. Смотрится куда лучше, чем твитторные треды типа "кидайте промпты, а я нагенерю".
Ну и совсем убойно смотрится вот это вот меню на ладони. А трюк с настройками на тыльной стороне - вообще шедевр UX.
Все эти фильмы про будущее уже здесь.
Снап молодцы, у них очень крутой ресерч.
И я добавлю, что именно тут ИИ-генерация очень уместна и по делу - нет требований к качеству 2Д и 3Д, аудитория уже приучена к некоторому стилю, в которой ИИ попадает с первого раза.
А порассматривать очки можете тут:
https://techcrunch.com/2024/09/17/snaps-extremely-large-spectacles-bring-impressive-ar-to-developers-at-99-a-month/
@cgevent
Очень хочется посмотреть «необчные» версии известных шоу, сделанные AI.
Читать полностью…Секреты успеха от Ильи Суцкевера или как поднять $1b на 1 хтмл страницу:
1) $1b поднимайте
2) не $1b не поднимайте
Когда девушка попросила сводить ее куда-нибудь в дорогое место
Читать полностью…https://fxtwitter.com/ArdaGoreci/status/1830744265007480934
Читать полностью…Тут я бы приподнечокнулся за будущий геймдев, Виар и даже vfx.
Как вам темпорально стабильные 4д видео на сплатах, которые стримятся с ссд лаптопа и рендерятся 500 фпс.
Как пишет мне Андрей Володин, скоро уже будут в проде.
По ссылке почитайте подробный тред, как они дошли до жизни такой, почему весь опенсорс надо переписывать, как добиться темпоральной стабильности, особенности тренировки моделей, квантизацию и прочий фарш.
И все это сплаты, Карл! Включая волосы.
Ну, за часть пайплайнов VFX и gamedev.
https://x.com/s1ddok/status/1830680881050046756
@cgevent
🔥Molmo: Outperformimg Proprietary Multimodal Language Models
Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.
За два часа до релиза Llama 3.2, челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B,
- 7B и
- 72 B
По качеству на визуальных задачах Molmo выдает +- перформанс как Llama 3.2. где-то лучше, где-то хуже, и приближается к GPT-4o .
- Но, пре-трейн модель они делали всего на 700к размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо больше высокого качества.
- люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 сек. Далее запись автоматом переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели текст, выдавая точки на картинке, когда она описывает какой-то объект.
Все это очень сильно подняло качество модели. Это прям крутые идеи.
По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.
Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете - 700к картинок (2) supervised fine-tuning на instruction датасете, который они тоже собрали сами (там и точки на картинках, и документы прочие задачи) - тут в около 1.9 млн картинок (возможно пересекается с претрейн-датасетом)
Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев - я им верю!
Блогпост про модели
Arxiv
@ai_newz
CogView3 & CogView-3Plus
В целом осень выдалась урожайной, в основном благодаря ECCV & SIGGRAPH ASIA
Вот и китайцы выкатили очередную итерацию CogView text2image
Если верить авторам, бьет SDXL во все поля (пора все-таки уже с FLUX сравнивать, сдохле второй год пошел)
paper
code
@derplearning
Фоторежим из Death Stranding 2 как отдельный вид искусства
@derplearning
Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.
Также в Turbo завезли работу с вертикальными видео.
Твит
Сайт
Про Runway Turbo
https://fxtwitter.com/blizaine/status/1839301081656078579
Читать полностью…I shared the following note with the Openai team today
Читать полностью…While we’re talking about nuances
Winamp published their source code on github
https://github.com/WinampDesktop/winamp
And they used custom license which, among other things, forbids creation of forks
What’s nuance? GitHub’s license doesn’t allow usage of license where forks are forbidden 🌚
Fork time ! 😈
Издалека прочитал неправильно название - даже захотелось купить кому-нибудь в подарок 😅🥲
Читать полностью…⚡️В ближайшем обновлении emoji будет добавлен самый важный, которого мы ждали — читатель интернета вечером
PDF-документ обоснования добавления
Добрался почитать статью SAM 2: Segment Anything in Images and Videos (старье, ей уже больше месяца!), искренне восхитился. Причем даже не только красивой демкой и высокими метриками на всех подряд zero-shot / semi-supervised бенчмарках по сегментации, а дизайном всего решения.
TL;DR такой:
- поставили новую задачу promptable video segmentation - в такой постановке задачу не решают, зато ее можно рассматривать как обобщение ранее известных задач;
- чтобы ее решить, подошли с обеих сторон - модель и данные;
- модель дизайнили под относительно быстрый стриминг инференс, пригодный и для видео, и для отдельных картинок, которые рассматриваются как частный случай видео из одного кадра;
- поддержка видео реализована через memory attention блок (выход енкодера проходит через self-attention на себя, а cross-attention - на memory, содержащий фичемапы предыдущих фреймов и предсказаний + вектора сегментируемого таргета);
- собрали огромный датасет из 600k+ масок, используя много итераций self-labeling с вовлечением разметчиков (human in the loop is all we need), в конце добившись среднего времени разметки кадра человеком 4.5 секунд;
- при помощи тех же self-labeling + валидацией человеками расширили датасет в четыре раза, и обеспечили этим еще и хорошую сегментацию фоновых объектов;
- для каждого куска пайплайна есть детальный ablation study.
Вообще не знаю, зачем пересказывать такую статью - она написана максимально понятно, вникать не придется, читается легче, чем телеграм-канал среднего ML-графомана. Но если читать все равно лень, можете посмотреть видео.
А вот и воркфлоу для liveportrait @ comfyui
git
guide
tweet
@derplearning
Ну за риггеров и моделлеров, а также текстурщиков. Еще остается место на корабле для аниматоров, но LivePortait заберет часть связанную с захватом движения.
Я уже начинал наливать за риггеров вот тут и тут. И надо сказать, процесс пошел.
Вот держите первые прототипы нейрорига, которые народ пилит для своих нужд. И это уже не китайские аспиранты с бумагами наперевес. Это взрослые мальчики из VFX индустрии.
Следуюшим постом дам еще более приближенный к VFX кейс по нейроригу.
А пока задумайтесь - на входе - одна картинка - фото, генерация, рендер, что-угодно.
Весь традиционный пайплайн типа моделинг-анимация-эффекты-рендеринг разворачивается вспять. На первом месте картинка, то бишь рендер. И на него мы наваливаем эффекты, анимацию и если надо перемоделинг (просто перегенерируем картинку).
Я об этом говорил лет 12 назад на закрытиях CG EVENT, но не думал, что это будут нейросетки, тогда Юнити и Унриал начинали взрывать 3Д.
В общем вода и жара в VFX-пайплайне пошли в обратную сторону.
@cgevent
Польский разработчик создаёт симулятор типичного славянского ремонта со всеми его атрибутами. И только по одному этому трейлеру можно понять, какой получится шедевр.
Называется Majster Symulator. Даты выхода игры пока нет, но есть страница в Стиме. Можете добавить в вишлист.
Это точно игра года
r/#Asmongold
Когда коварные французы отжали у тебя не только фичи из телеги, но и дельты
Когда неделю не фоткался в пустыне\ванной