derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

12739

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

Встречайте – Улица сезам: дорога ярости

Теперь, надеюсь, вопросов не возникнет зачем нам видео-нейронки

🤷‍♂️🤷‍♂️🤷‍♂️

Читать полностью…

Derp Learning

FLUX DEFORUM!

🔥 https://github.com/XLabs-AI/deforum-x-flux.git 🔥

С интерполяцией по латентному пространству

Читать полностью…

Derp Learning

https://youtu.be/beTuZ0mlkn4?si=kDl-czE6CdYNgBYO

Читать полностью…

Derp Learning

FLUX1[dev] полезные ссылки

📕 FLUX очень быстро развивается, а информация про него выходит практически каждый час, я решил собрать все полезные ссылки в одном посте, чтобы вам было легче начать делать что-то безумное.

🔄 Требования к VRAM снизились с 24 до 12 ГБ относительно быстро, и теперь, с поддержкой bitsandbytes и NF4, можно генерить на 8 ГБ и, возможно, 6 ГБ с 3,5-4-кратным увеличением скорости вывода.

🐈‍⬛ Начнем с приятных гридов с разными настройками и сравнениями:
Сравнение сэмплеров и шедулеров
Минимальное количество шагов для каждого семплера
Сравнение с другими моделями
Guidance тест

❤️ Основные части FLUX:
— Попробовать бесплатно погенерить FLUX PRO (20 картинок) | FLUX Dev | FLUX Dev ControlNET Canny
FLUX.dev checkpoint
Как обучать Лору для FLUX на 24GB
FLUX.dev nf4, который позволяет генерировать на картах 12GB + (Пока правда не понял как прикрепить уже готовые Лоры к нему)
Коллекция Лор, для ComfyUI берем comfy_converted
Коллекция Лор от коммьюнити
Canny ControlNET
Генератор промптов + image caption на HF
Генератор промптов на основе ChatGPT

😮 JSON воркфлой для ComfyUI:
Базовый
Пак продвинутых
— Мой адаптированный воркфлоу будет в комментах + экстра

🔥 Интересные посты о тонкой настройки для супер качества:
Невероятного качества воркфлоу, только даже при A100 40GB генерит 8 минут на картинку 1024x1024px

🔄 FLUX существует меньше месяца, а уже невероятно развивается во всех направлениях, ожидаем пак ControlNetов, IPAdapter и поддержку видео моделей.

Читать полностью…

Derp Learning

https://fxtwitter.com/ai_for_success/status/1821975861698154993

штош

Читать полностью…

Derp Learning

Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске

Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.

А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️🔎

Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.

Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.

В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)

Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0

MET map
📃Пост
🌐Repo
🤗v1.5

Читать полностью…

Derp Learning

Интересный, даже не концепт, а реально работающая тулза для скетчинга шагающих машин.

Кроме привычных инструментов, RobotSketch позволяет прототипировать ваши нарисованные идеи, как если бы вы реально построили настоящего робота и обучали его ходьбе.

Очень сложно на ранних этапах понять, как будут взаимодействовать части и сочленения машин, насколько она будет устойчивой и способной. Поэтому прототипирование — это один из самых важных этапов производства. Прикрученный ML модуль помогает вам прогнать итерации и посмотреть, как ваш гомункул учится ходить.

В демке есть также приятный бонус в виде VR мода для тех, кому этот вид кажется удобным. Для Джурабаева, видимо.

Робототехника — это новый приятный мятно-латтевый аромат завода, повышенные зарплаты на ближайшие 20 лет, а потом забвение. Подробнее вы можете прочитать в (Player Piano) Курта Воннегута.

Видео

Читать полностью…

Derp Learning

FastHTML

Чюваки из fast.ai \ answer.ai в очередной раз упоролись и выкатили фронтенд на питоне.
Наконец-то мы, питонисты, сможем делать свои всратые интерфейсы напрямую, без этих ваших градио и реактов!

В конце концов, you cannot spell html without ml 🥲

Fastht.ml

Читать полностью…

Derp Learning

В Таиланде нашли кафе, в котором идеально обслуживают удалёнщиков. По пятницам им меняют кофе на пиво.

Выезжаем.

Читать полностью…

Derp Learning

Слили список видео, на которых тренировали Runway GEN-3.

Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.

Хз, правда кого в 2024-м можно этим удивить.

404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.

Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.

Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.

Интересно, чем этот скандал закончится. Я не удивлюсь если и OpebAI тркнились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).

Источник
Документ

@ai_newz

Читать полностью…

Derp Learning

Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz

Читать полностью…

Derp Learning

Новая порция звезд с собой из прошлого

Сделано в Kling

Читать полностью…

Derp Learning

Собрал вам мудборд на сегодня

Читать полностью…

Derp Learning

Be honest, did you gave it a second of thought?

Читать полностью…

Derp Learning

Kling генерации

⭐️ Приятное видео воссоединения одного и того же человека в молодости и в старости.

🧠 Все это сделано в Kling видеонейронке. Предварительно сшив две фотографии из разного возраста звезд в одну картинку и похоже подав с промптом на обнимание. 🐈‍⬛Доступ к видеонейронке только с валидным китайским номером.

☺️ Хотя с таким же подходом можно подать видео в Dream machine

Читать полностью…

Derp Learning

Запускаем Flux GGUF в ComfyUI на Runpod и INPAINTING

👀 Второй ролик, где на новой модели вновь обучаемся азам ComfyUI, теперь пробуем inpainting, Lora и ControlNET с GGUF моделями. Постарался сделать .ipynb с закачкой заранее всех custom_nodes и моделей, а потому вы уже сразу после запуска сервера открываете готовый ComfyUI и сразу можно генерить! Когда-нибудь я дообучусь как docker делать и тогда процесс будет еще проще

📕 Пост в patreon (бесплатный) со всеми данными к видео.

🐈‍⬛ Следующий пост постараюсь сделать не про Flux. простите, я так давно мечтал о Midjourney в локальном варианте, что не могу не нарадоваться.

Читать полностью…

Derp Learning

Flux Depth для видео генераций

🔥 Автор сделал видео с помощью Depth ControlNet для Flux и Dream Machine с двумя ключевыми кадрами и промптом:
— "epic ____ transformation"
— "epic liquid transformation"

📕 Сегодня я как раз показал на стриме, что ControlNet для Flux уже спокойно запускается в ComfyUI в стандартной ноде Apply ControlNet.

🐈‍⬛ Json для ComfyUI.

@monkeyinlaw

Читать полностью…

Derp Learning

Qwen 2 - Math и Audio

Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.

Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.

Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.

Веса Math
Веса Audio

@ai_newz

Читать полностью…

Derp Learning

Для сравнения, что было джва года назад:

https://fxtwitter.com/blizaine/status/1822019696964870536

Через два года ожидаем институт пчеловодства

Читать полностью…

Derp Learning

если вам тоже было интересно как затанцевать макароны, держите воркфлоу для комфи а также свежий пошаговый видео туториал

магия происходит конечно же благодаря ip-adapter и qrcode-monster controlnet. а за хорошую скорость генерации отвечает lcm моделька. все необходимые ссылки есть в туториале

workflow на civitai
туториал
ig автора воркфлоу

@тоже_моушн

Читать полностью…

Derp Learning

Для flux начали появляться первые робкие контролнеты!

Hf
Tweet

@derplearning

Читать полностью…

Derp Learning

Помните был такой алгоритм Deepdream? Если его картинки подавать на вход в Gen 3, она очень стильно трипует 🐑

Читать полностью…

Derp Learning

Немного лумы и клинга на сон грядущий

Пираты аджарского моря великолепны, конечно.

Читать полностью…

Derp Learning

🪺 Fast Food Memes

Читать полностью…

Derp Learning

Stretching Each Dollar: Diffusion Training from Scratch on
a Micro-Budget


Демократизация обучения text2image трансформеров во все поля!

Чюваки из Sony AI и University of California упоролись и сократили косты на обучение в 14 раз по сравнению с текущим SOTA-подходом и aж в 118 раз по сравнению с затратами на обучение StableDiffusion 2.1

Для сравнения:
их подход - $1890, 60 8xH100- часов
текущий SOTA - $28000, 18000 A100-часов
SD2.1 - 200000 A100-часов

Сделали они это просто потренив не на а100, а на h100 с помощью маскировки 75% патчей при обучении.

FID, конечно, немного притянут. Если уж два дня тренили, чего еще два дня не потренили, все равно фора огромная.

В целом тренд на демократизацию опенсорсного ИИ мне по душе, теперь и GPU-poor посоны (8xH100) смогут ворваться в мир диплерненга! Ура товарищи!

paper

Читать полностью…

Derp Learning

Design and Control of a Bipedal Robotic Character

Пейпер года конечно (по уровню милоты)

Paper

Читать полностью…

Derp Learning

Отец знакомого работает в Microsoft. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать всю технику и бежать в магазин за драйверами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...

Читать полностью…

Derp Learning

Помню мне как-то предлагали вакансию "водитель фуры-рефрижератора по вашему резюме 3д-визуализатор"

Читать полностью…

Derp Learning

Пока OpenAI всё тянет с релизом обещанной модельки, гугл потихоньку разворачивает киллер-фичи от Gemini, в том числе Vids.

Vids — это новая тулза от гугл, которая должна помось создавать видосы на скорую руку. Из функционала:
- Генерация скрипта
- Текста для видео
- Подбор стоковых видео
- Генерация видео (наверное через Veo)
- Подбор фоновой музыки
- Генерация текста для озвучки
- Генерация самой озвучки

И всё это в один шаблон.

Короче, полноценный агент для создания дешёвых промо роликов. (Ну а что, Спилберг тоже не с Голливуда начинал)

Чтобы проверить, есть ли у вас доступ к функциям Workspace Labs, откройте документ в Google Docs. Слева [у меня была справа] найдите раздел "Help me write".


Я в гугл доках у себя вижу значок "Ask Gemini", а вы? Но Vids у меня пока не доступно, пишут что раскатили это только на маленькую группу «доверенных юзеров».

Подробности
Про Vids

@ai_newz

Читать полностью…

Derp Learning

Всегда работающий приём — взять что-то очень новое и смешать со старым, или лучше с очень старым.

Например, взять модную шмотку, крашеные волосы, пирсинг, татухи и смешать с чтением книг, экспертностью в вине и слушаньем музыки на виниле или, ладно, кассетах.

Или делать поиски в латентном пространстве с помощью MIDI-контроллера в реальном времени.

Технологии будут совсем неотличимы от магии, если замешать всё это на химические элементы, колбы и пипетки, я полагаю.

Красота крутится на SDXL Turbo и тулките для интерактивных выставок Lunar Tools

Читать полностью…
Subscribe to a channel