Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Ну, за кожаных инфлюенсеров.
Сколько им осталось? Полгода?
Липсинк постепенно переходит в список решённых задач...
Потом придется создавать резервации типа кожаного тиктока или инсты, куда вход разрешен только белковым сущностям.
С жоской аутентификацией, KYC, биометрией, отпечатками пальцев, faceID.
Хотя faceID уже обходится генеративным контентом.
В общем кожаным пора строить свой новый интернетик.
@cgevent
С ростом популярности видео генераторов появляется все больше людей, которые хотели бы попробовать сделать свое кино с нуля (мне тоже хочется)
Наткнулся на анимированный гайд от Disney который расскажет как именно снимают фильмы и как браться за эту задачу в целом:
https://disneyanimation.com/process/
Точно в избранное
Небольшой дайджест за день по FLUX
🔥 Flux подборка присутствия в датасете художников.
📕 Flux LORA база данных Текстуры | Стили
Картинки — мои примеры генераций с супер детальным пайпалйном с двойной инъекции шума в латент от Маттео. Json в комментах. Он адаптирован под капшионинг через Florence2.Читать полностью…
T2V model CogVideoX-5B
🔥 Выложили веса для CogVideoX-5B — опенсорсный text2video, и уже есть готовые ноды для инференса в ComfyUI, даже с возможностью Vid2Vid.
📕 Для ComfyUI можно использовать T5 энкодер, который для Flux и SD3. А еще ест 13-14GB в пике, но только VAE. Сэмплинг кушает только 5-6GB.
COMFYUI—HF_WEIGHTS—GITHUB
Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»
Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.
Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!
Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.
Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Здесь для обучения используется способ, похожий на тот, что я описывал в посте про живую сталь. Там можно почитать подробнее.
Хотел бы я подарить такую штуку себе 15 лет назад.
Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)
@ai_newz
В Boston dynamics мы больше не инвестируем
(Хотя первые две скорей всего живые)
Ситуация с Дуровым сложная для Telegram
Опущу разные домыслы в стиле знал ли Павел, что его арестуют во Франции (потому что если знал, то это уже конспирологическая теория без каких-то пруфов) – и попробую оперировать только известными и подтвержденными фактами
1. В розыск его объявили за несколько минут до приземления, это требует координации разных служб, так что можем спокойно предположить, что его задержали настоящие спецслужбы
2. Судя по обвинениям – ему вменяют проблемы модерации Телеграм, потому что почти каждый пункт так или иначе про бездействие администрации, что местные власти расценивают как «пособничество» – будь я Цукербергом я бы во Францию теперь не ездил; обвинения настолько «объемлющие» что в чем конкретно Павла обвиняют не ясно, все это можно быть просто поводом к задержанию и взяли самую удобную статью обвинения
3. При этом, Телеграм сотрудничает с правительствами, например после блокировки в Бразилии, Телеграм исполнил требования регулятора и блокировку сняли – это подтверждает, что Телеграм сотрудничает с властями, иначе их удалили бы из сторов в целом
4. В Нидерландах есть закон о прозрачности полиции, где-то год назад я видел статью от местных журналистов что они получили от полиции официальные формы запроса данных о пользователе в Telegram. В форме можно запросить и IP, и номер телефона (вот пример такой формы )
5. То есть мы точно знаем, телеграм подчиняется законам разных стран и удовлетворяет их запросы – получается французское правительство хочет чего-то большего, чем текущие коллаборации
6. Гадать что именно хочет французское правительство смысла нет: потому что между «это может быть банальная попытка усложнить местным ОПГ жизнь» и «Телеграм активно используется как военный мессенджер одной там страной справа от ЕС и доступ к серверам переломит ключевое место коммуникации армии» могут поместиться вообще все гипотезы мира, поэтому просто ждем новых вводных и рассчитываем на публичный суд
Почему, как мне кажется, ситуация сложная для Телеграма:
– Если Павла отпустят под залог и дадут уехать, конспирологи поверят, что Телеграм скомпроментирован, Павел сдал «доступы» и репутация Телеграма как безопасного мессенджера пострадает
– Если Павла не отпустят, то у Телеграма пойдет вверх рейтинг популярности, но для этого нужно присесть и 100 биологическим детям Дурова придется рассказать, что их отец – сиделец
Пока что, выглядит так что Дуров не выйдет быстро – если его не отпустят в ближайшие сутки по недоразумению (допустим), то этот процесс серьезный и надолго
Отдельно отмечу какой же это бред – сажать ИТ-предпринимателей мирового уровня у себя в стране и рассчитывать, что стартаперы охотно будут строить стартапы в этой стране – тупой выстрел себе в ногу
Если мы знаем, что ТГ подчинялся запросам страны вроде Бразилии, то мы можем быть уверены, что ТГ подчинится официальным запросам США – лицо спецагентов там имадженировали, когда они поняли что франция им всех преступников из ТГ распугала и их снова нужно собирать в одном месте в новом мессенджере? Потому что преступники то никуда не денутся – даже с закрытием ТГ
The Verge поигрались с функцией Magic Editor, которая будет в Pixel 9, и пришли к выводу, что это инструмент для массовых обманов.
Всего за пару минут можно превратить обычное фото в место ДТП, грядущий теракт, место падения вертолёта или вечеринку с наркотиками.
Google утверждает, что промты на подобные темы не должны работать, но журналистов The Verge получилось пробиться сквозь ошибки.
@zavtracast
Встречайте – Улица сезам: дорога ярости
Теперь, надеюсь, вопросов не возникнет зачем нам видео-нейронки
🤷♂️🤷♂️🤷♂️
FLUX DEFORUM!
🔥 https://github.com/XLabs-AI/deforum-x-flux.git 🔥
С интерполяцией по латентному пространству
FLUX1[dev] полезные ссылки
📕 FLUX очень быстро развивается, а информация про него выходит практически каждый час, я решил собрать все полезные ссылки в одном посте, чтобы вам было легче начать делать что-то безумное.
🔄 Требования к VRAM снизились с 24 до 12 ГБ относительно быстро, и теперь, с поддержкой bitsandbytes и NF4, можно генерить на 8 ГБ и, возможно, 6 ГБ с 3,5-4-кратным увеличением скорости вывода.
🐈⬛ Начнем с приятных гридов с разными настройками и сравнениями:
— Сравнение сэмплеров и шедулеров
— Минимальное количество шагов для каждого семплера
— Сравнение с другими моделями
— Guidance тест
❤️ Основные части FLUX:
— Попробовать бесплатно погенерить FLUX PRO (20 картинок) | FLUX Dev | FLUX Dev ControlNET Canny
— FLUX.dev checkpoint
— Как обучать Лору для FLUX на 24GB
— FLUX.dev nf4, который позволяет генерировать на картах 12GB + (Пока правда не понял как прикрепить уже готовые Лоры к нему)
— Коллекция Лор, для ComfyUI берем comfy_converted
— Коллекция Лор от коммьюнити
— Canny ControlNET
— Генератор промптов + image caption на HF
— Генератор промптов на основе ChatGPT
😮 JSON воркфлой для ComfyUI:
— Базовый
— Пак продвинутых
— Мой адаптированный воркфлоу будет в комментах + экстра
🔥 Интересные посты о тонкой настройки для супер качества:
— Невероятного качества воркфлоу, только даже при A100 40GB генерит 8 минут на картинку 1024x1024px
🔄 FLUX существует меньше месяца, а уже невероятно развивается во всех направлениях, ожидаем пак ControlNetов, IPAdapter и поддержку видео моделей.
https://fxtwitter.com/ai_for_success/status/1821975861698154993
штош
Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE
Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.
(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)
Ладно, это бы я посмотрел
Harry Potter and the goblet of moonshine
Чюваки из Гугла упоролись и запустили doom на stable diffusion v1.4
Обучили rl-агента играть в дум, записали 900млн кадров 320х240, и обучили старую добрую sd v1.4 с контекстным окном в 64 кадра + 64 действия игрока вместо текста.
(Теперь понятно чем они вместо Gemini занимаются)
Подробнее
@derplearning
Перенос стиля на 3D объект с помощью Gaussian Splatting
Красивая статья о StyleSplat
переносе стиля на выделенные объекты. Редко пишу о статьях без кода и демок, но гауссианы — моя слабость.
О переносе стиля с картинки на сцены писала ранее. Все это быстро развивается и томится в ожидании своего применения в играх и кино.
Набирает популярность мем про фабрику треугольников. Мои любимые:
@derplearning
Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.
Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.
Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍
С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁
* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.
@ai_newz
Максимально неожиданно рандомная кек новость дня:
LinkedIn (sic!) выкатил Liger - свой набор кернелов под triton.
Кто ещё не ворвался в опенсорс ии?
Теперь хочу какойнить рисерч от одноклассников штоле. Ну им битрикс24, чем они хуже сейлсфорса с их blip? 🥲
Github
@derplearning
Забрал из коментов ибо прекрасно.
Звёздные войны в стиле пластилиновой вороны.
Это просто Лора для Flux.
Запускаем Flux GGUF в ComfyUI на Runpod и INPAINTING
👀 Второй ролик, где на новой модели вновь обучаемся азам ComfyUI, теперь пробуем inpainting, Lora и ControlNET с GGUF моделями. Постарался сделать .ipynb с закачкой заранее всех custom_nodes и моделей, а потому вы уже сразу после запуска сервера открываете готовый ComfyUI и сразу можно генерить! Когда-нибудь я дообучусь как docker делать и тогда процесс будет еще проще
📕 Пост в patreon (бесплатный)
со всеми данными к видео.
🐈⬛ Следующий пост постараюсь сделать не про Flux. простите, я так давно мечтал о Midjourney в локальном варианте, что не могу не нарадоваться.
Flux Depth для видео генераций
🔥 Автор сделал видео с помощью Depth ControlNet для Flux и Dream Machine с двумя ключевыми кадрами и промптом:
— "epic ____ transformation"
— "epic liquid transformation"
📕 Сегодня я как раз показал на стриме, что ControlNet для Flux уже спокойно запускается в ComfyUI в стандартной ноде Apply ControlNet.
🐈⬛ Json для ComfyUI.
@monkeyinlaw
Qwen 2 - Math и Audio
Прямо перед выходными Alibaba релизнула несколько тюнов своей линейки Qwen 2.
Math модель выглядит крайне вкусно - 7B версия обходит недавнюю Mathstral, а 72B обходит ВСЕ существующие модели в математике, даже упомянутую мимоходом в техрепорте версию Gemini заточенную под математику. Но, в отличии от господ из Google, не утруждающих себя "релизами", китайцы выложили все веса на huggingface.
Вместе с Math выпустили ещё и 7B Audio модель, это уже второе поколение аудиомоделей от Alibaba. Лучше во всех бенчмарках, понимает восемь разговорных языков. Но всё ещё немая - может общаться только лишь текстом. До Omni модели от китайцев, видимо, ещё далеко.
Веса Math
Веса Audio
@ai_newz
Для сравнения, что было джва года назад:
https://fxtwitter.com/blizaine/status/1822019696964870536
Через два года ожидаем институт пчеловодства
если вам тоже было интересно как затанцевать макароны, держите воркфлоу для комфи а также свежий пошаговый видео туториал
магия происходит конечно же благодаря ip-adapter и qrcode-monster controlnet. а за хорошую скорость генерации отвечает lcm моделька. все необходимые ссылки есть в туториале
workflow на civitai
туториал
ig автора воркфлоу
@тоже_моушн