Telegram-канал derplearning - Derp Learning: Unsorted - каталог телеграмм

derplearning | Unsorted

Subscribe to a channel

Telegram-канал derplearning - Derp Learning

13017

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

12 Apr 2024 11:09

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)

Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40!

Самое главное — эта модификация совместима со всеми диффузионными моделями.

Статья

Читать полностью…

Derp Learning

10 Apr 2024 07:14

Ближайшее по интересности событие по теме генерации трехмерных объектов начнется 28 июля на Scigraph.

На нем, в частности, покажут Clay (Controllable Large-scale Generative Model). Очень надеюсь, не зря они ее назвали controllable. На видео видно, что там появится какой-то намек на настройки, симметрия, как минимум.

И если посмотреть на модель шлема, то, может быть, можно понадеяться на то, что генерации будут нормально работать с хардсерфейсными объектами, а не превращать их в обмылки. Типичная проблема всех трехмерных генераций.

Надеяться на то, что он вам качественно сделает газообразные грибы с крыльями, не стоит, но на что-то, что есть в реальном мире, хотелось бы верить, что сможет.

Информации пока очень мало, статья готовится, а пока вот пустая страница проекта.

Читать полностью…

Derp Learning

06 Apr 2024 00:31

Астрологи объявили взрывной рост объемов 3D-контента — ситуация стремительно набирает обороты. За конец марта опубликовано 13 статей про генерацию трехмерных объектов из текста и изображений.

SV3D: Stability AI показала новую модель для реконструкции изображения в 3D с высоким разрешением.
LATTE3D от NVIDIA: новый метод преобразования текста в 3D, позволяющий генерировать текстурированные сетки из текста всего за 400 мс.
Isotropic3D: генерация изображения в 3D на основе создания многоракурсных плоских изображений.
MVControl: преобразование текста в 3D с управлением по типу ControlNet (резкость, глубина и т. д.).
Make-Your-3D: преобразование изображения в 3D с возможностью управления генерацией с помощью текстовых подсказок.
MVEdit: поддерживает преобразование текста в 3D, изображения в 3D и 3D в 3D с генерацией текстур.
VFusion3D: преобразование изображения в 3D на базе предварительно обученных моделей видеодиффузии.
GVGEN: преобразование текста в 3D с объемным представлением.
GRM: эффективное преобразование текста в 3D и изображения в 3D за 100 мс.
FDGaussian: преобразование изображения в 3D с предварительной генерацией разных ракурсов в 2D.
Ultraman: преобразование изображения в 3D с упором на человеческие аватары.
Sculpt3D: и снова преобразование текста в 3D.
ComboVerse: преобразование картинок в 3D с комбинированием моделей и созданием сцен.
Не везде доступен код, так что сравнивать сложно, но первые результаты уже есть — пара божественных мезоамериканских нейролягушек.

Читать полностью…

Derp Learning

03 Apr 2024 17:41

3D Gaussian Splatting of the collapsed Baltimore Key Bridge.

Вот и гауссианы пригодились в деле.

Твит
Реддит
Покрутить самим тут

@derplearning

Читать полностью…

Derp Learning

03 Apr 2024 10:23

Джуны нинужны? 😀

Чюваки из Принстона запилили пайплайн, который фиксит реальные issues в гитхабе и выбивает 12% на SWE-bench.

Фиксит "под ключ" - кидаем ссылку на issue, получаем комитет с фиксом.

Агенты парсят проблему, качают репо, воспроизводят проблему в тестовой среде, ищут релевантные функции в коде, предлагают решение, проверяют в тестовой среде, коммитят фикс в репо.

Пейпера нет, код есть, лол.

Твит
Код

@derplearning

Читать полностью…

Derp Learning

02 Apr 2024 13:12

Autonomous Overhead Powerline Recharging for Uninterrupted Drone Operations

Думал, что это первоапрельская шутка, но нет.

Дрон, способный самостоятельно подзаряжаться от ЛЭП, причем и от постоянного тока в том числе.

Если такой системой оборудовать дроны, которые уже используются для очистки ЛЭП от паутины, мусора, и обрезки ближайших деревьев, получим первый пример киберпанк-симбиоза.

Дроны-прилипалы!

Paper

@derplearning

Читать полностью…

Derp Learning

30 Mar 2024 13:15

Вышел ресеч по AI-детекторам текста, это которыми студентов и откликающихся на вакансии пугают – мол не используйте ChatGPT, мы все узанем.

Можете показать этот пост HR или тем кто учится:

— Точность AI-детекторов в среднем по рынку всего 39.5%;

— Вы можете добавить в сгенерированный текст разные виды атак и точность определения AI-текста упадет до 22%;

— Только 67% текста написанного человеком было помечено как «Реальный»;

Эффективные виды атак на AI детекторы — каждая из них серьезно влияет на точность определения AI текста:

1. Добавление орфографических ошибок и опечаток:

Вместо: «The quick brown fox jumps over the lazy dog.»
Пишем: «The quikc brown fox jmups over the lazy dog.»

То есть будто мы спешили и быстро псиали.

2. Написание текста как не-нейтив спикер:

Попросите LLM писать текст будто вы не нативный владелец этого языка.

Вместо: «I am very happy to write this essay for my English class. I hope to get a good grade.»
Пишем: «I am very happy to writing this essay for my English class. I hope to get good grade.»

Для нас совсем простой хак 🌚

3. Увеличение неравномерности:

Вместо: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями. Это был идеальный день для пикника в парке.»

Пишем: «Солнце ярко светило. Птицы щебетали. Легкий ветерок шелестел листьями, создавая умиротворяющую атмосферу. Это был идеальный день для пикника в парке, где семья и друзья собрались вместе, чтобы насладиться прекрасной погодой.»

То есть длина и структура предложений варьируются, чтобы создать более динамичный и насыщенный деталями текст. Короткие предложения сочетаются с более длинными и описательными, имитируя повествования человеческого письма.

Мое мнение про AI-детекторы:
Это шлак 😎 — на них нельзя полагаться.

Бонус:
На основе этого ресеча и основных аттак я собрал GPT «Anti AI-Detection» — вставляете туда текст, и она его переписывает применяя эти атаки. Работает не так хорошо как люди, конечно же, но работает.

Исследование целиком:
https://arxiv.org/abs/2403.19148

Читать полностью…

Derp Learning

29 Mar 2024 11:52

Видели такое?
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.

Удобно?

https://nn.labml.ai/

Читать полностью…

Derp Learning

28 Mar 2024 10:48

claude-llm-trainer
Чел из hyperwriteai.com выкатил любопытный пайплайн, который обучает язвыковую модель по описанию задачи.

Описываете задачу текстом, например "генерация кода на питоне", а дальше с помощью Claude 3 генерится датасет под задачу и тренится моделька. Лама 2 7б в колабе, локально, или вообще гпт3.5 через апи - не принципиально.

Насколько такие модели действительно полезны (по сравнению с обученными кожаными мешками на реальный данных) - большой вопрос, но как демка пайплайна - очень даже любопытно.

Возможно, генерация датасетов подобным образом нарушает условия anthropic, но что вы нам сделаете, мы сдругова горада.

git
tweet

Читать полностью…

Derp Learning

27 Mar 2024 19:27

Finally some code with no docs/comments required by default 🤡

Читать полностью…

Derp Learning

26 Mar 2024 14:08

🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Oculus Pro.

Сайт проекта

@ai_newz

Читать полностью…

Derp Learning

25 Mar 2024 19:35

OpenAI дали доступ к SORA разным креативным людям по миру – и те показали свои первые работы с ней.

Выкачал вам все примеры – как по мне, довольно клево вышло, в руках профи SORA по настоящему раскроется.

Пост тут:
https://openai.com/blog/sora-first-impressions

Читать полностью…

Derp Learning

25 Mar 2024 16:05

Вышла GGUF версия Grok

hf за линк спасибо labmember04

Читать полностью…

Derp Learning

20 Mar 2024 17:02

💣 Одним из самых запоминающихся моментов с конференции Nvidia GTC 2024 стало выступление Хуанга, когда он под конец попросил выйти на сцену двух маленьких роботов, выполненных в стилистике "Звёздных войн".

Эти роботы не просто аниматроника; они научились ходить с помощью платформы Isaac Sim — платформы для моделирования робототехники.

Мы привыкли воспринимать большую часть информации посредством картинок и видео из интернета, но только представьте, что что-то, что само научилось ходить и видеть, проходит в таком виде мимо вас. Мне кажется, первый контакт будет незабываемым и запомнится на всю жизнь.

Читать полностью…

Derp Learning

20 Mar 2024 11:50

its not a world model if its not hype enough - open sora

Китайская версия Sora начала учиться чуть больше месяца назад, и за всего то 200 а100 дней и 400к видео начала генерировать вполне неплохие 2s видео!

А, это не финальный чекпоинт и это всего 16×512×512

repo
blog про ускорение обучения

Читать полностью…

Derp Learning

11 Apr 2024 21:38

странная серия глухаря, но окэй

Читать полностью…

Derp Learning

06 Apr 2024 09:43

Нашёл просто офигительный нейропроект VERLAB. Один из самых остроумных, что я видел.

Его создатели генерят мебель, интерьеры и архитектуру, используя элементы русской культуры или природы за реф.

Например, на прикрепленных фотографиях можно посмотреть на мебель по мотивам творчества Билибина и керамику, вдохновлённую советской ёлочной игрушкой.

Кроме этого на канале можно увидеть интерьеры, вдохновлённые Сталкером Тарковского, озёрами в Астраханской области и горами Кабардино-Балкарии.

В общем, одно из самых лучших применений нейронки, что я видел. Ведут канал, кстати, практикующие архитекторы и преподаватели Британки.

Читать полностью…

Derp Learning

04 Apr 2024 17:28

Command R+ — новая модель!

104 миллиарда параметров, 128к контекста. Моделька с нуля сделана для использования тулов и RAG (Retrieval Augmented Generation), на бенчмарках связанных с этим модель показывает себя очень достойно. Нормальных тестов пока что нет, но Command R 35B очень хорошо себя показала на LLM арене, так что модель в три раза больше вряд-ли ударит лицом в грязь.

Веса уже выложили, даже квантизированные🥳

У меня большие надежды на эту модель!

Демка
Веса
Блогпост

@ai_newz

Читать полностью…

Derp Learning

03 Apr 2024 15:38

Stable Audio 2 - генерация коммерческой музыки по промпту

Самое интересное в модели - это то что её тренировали только на лицензированных данных, так что новому CEO Stability AI будет поспокойнее.

Архитектурно это, как и Sora с SD3, Diffusion Transformer, похоже U-Net всё же отправляется на покой.

Моделька доступна на сайте, API, как и пейпер обещают позже. Весов нет и вряд-ли будут.

А ещё они запустили стрим с непрерывной генерацией музыки, lofi girl напряглась.

Сайт (бесплатно дают 10 генераций с новой моделькой в месяц)
Блогпост
Стрим с вечной музыкой

@ai_newz

Читать полностью…

Derp Learning

03 Apr 2024 07:15

В vision pro добавили возможность приютить всратые 3д аватары своих коллег у себя дома.

Теперь на удаленных созвонах будет видно, где у кого руки.
В целом, несмотря на всратость текущих аватаров, сама фича довольно полезная, особенно если тебе срочно надо зайти на дейлик с комфортабельного сиденья твоего унитаза.

@derplearning

Читать полностью…

Derp Learning

31 Mar 2024 12:55

В мире компьютерной безопасности сегодня интересный день. Точнее, он начался вчера вечером, когда немецкий разработчик Андрес Фройнд опубликовал отчет о тайной лазейке (бэкдор), которую он обнаружил в новых версиях широко используемой библиотеки для сжатия liblzma (часть архиватора xz). Лазейка позволяет взломщикам заходить через SSH на системы, в которых установлены эти новые версии - к счастью, похоже, что это всего несколько дистрибутивов Линукса в их до-релизовых версиях.

Всех очень впечатлило, насколько эта лазейка была сделана хитро, и как взломщик или взломщики серьезно поработали над тем, чтобы замести следы:

- взломщик под именем/псевдонимом Jia Tan почти два года (!) участвовал в разработке опенсорсного пакета xz, завоевал доверие его мейнтейнеров и получил доступ к прямому коммиту в его репозиторию. Он сделал больше 700 коммитов, лишь малая часть которых медленно подготовила код для лазейки

- основной код лазейки спрятан в тестовых файлах проекта (примеры "плохих" и "хороших" архивов)

- исходный код, который включает лазейку в собственно библиотеку, вообще не является частью основной репозитории в Github. Он спрятан в тар-архивах двух последних релизов, которые обычно используются мейнтейнерами дистрибутивов. То есть есть таг релиза, есть архив, якобы собранный из репозитории в момент этого тага, но на самом деле в нем есть крохотная добавка; в самой репозитории ее нет

- эта добавка прячется в конфигурационной магии autoconf, которую все ненавидят лютой ненавистью и никто никогда не заглядывает внутрь

- она проверяет, когда исходники конфигурируют именно для постройки дебиан-пакета или RPM-пакета (т.е. то, что будут делать мейтейнеры дистрибутивов), и только в этом случае вынимает из тестовых файлов определенные куски и добавляет в код библиотеки

- внутри библиотеки код лазейки заменяет несколько функций, которые работают с символьными таблицами библиотек во время их подгружения. Затрачены специальные усилия, чтобы имена функций не появлялись в двоичном коде. Что именно дальше делает код лазейки, до конца еще не ясно, но он обрабатывает сам символьные таблицы библиотек, и видимо находит то, что имеет отношение к SSH серверу, и что-то там заменяет. Это еще проверяют сейчас.

- интересно, что openssh, стандартный SSH-сервер под линуксом, не использует библиотеку liblzma, в которую вставили эту лазейку, но несколько популярных дистрибутивов добавляют в него поддержку уведомлений системы, systemd, а библиотека libsystemd уже в свою очередь использует liblzma.

- после того, как вышли версии библиотеки с ошибкой, несколько разных людей с незамеченными до того именами (очевидно, альты взломщика или сообщники) стали открывать запросы в разных программах и пакетах сделать апгрейд на эти новые версии, и в некоторых случаях преуспели

Взломщик допустил только одну ошибку: код лазейки, когда он работает как часть openssh, довольно медленно обрабатывает эти символьные таблицы, или что он еще там делает, и даже неудачная попытка логина на такую систему занимает на полсекунды дольше, чем обычно. Андрес Фройнд заметил эти полсекунды задержки. Они его раздражали. Он решил найти, какой новый баг к этому приводит, и нашел эту лазейку.

Если бы все происходило быстро и не было задержки в полсекунды, очень может быть, что это не заметили бы месяцы и годы, и этот код попал бы в основные дистрибутивы, в версии Линукса, которые запускаются у основных облачных провайдеров итд. Они реально очень, ОЧЕНЬ хорошо замели следы.

Теперь все думают, что надо было/надо теперь делать по-другому, и как обнаружить следующую лазейку такого типа - или предыдущую, если она уже есть и никто не знает! - не опираясь на удачу и героическую занудливость Андреаса Фройнда.

Читать полностью…

Derp Learning

29 Mar 2024 12:39

Вышел апдейт viggle.ai

Подняли разрешение видео, ускорили генерацию, улучшили лица и быстрые движения.

Надеюсь, пофиксили главную проблему - фон, залезающий на текстуру по краям модели.

Если не в курсе - это сервис, который генерит и текстурирует модельку по фото и анимирует все это по опорному видео, в том числе с лицевой анимацией.
Хоть какой-то глоток свежего воздуха на фоне вариаций animatediff с различными свистоперделками.

Читать полностью…

Derp Learning

29 Mar 2024 00:07

Ну и куда же без пятничного кека над айфонами

Читать полностью…

Derp Learning

28 Mar 2024 10:34

~~Блогеры - все. Вы не поверите, это девушка полностью генерация!~~

Ох, ребята, иногда у меня подгорает с твиттерских "аи-блогеров" (ex. криптобро), обожающих бомбить громкими заголовками ради репостов, не проверяя информацию, а потом это мощно тиражируется.

Люди на видео реальны, вы даже можете нанять их, чтобы сделать видео здесь, например:
https://fiverr.com/amarie1717

Другими словами, "стартап", получил лицензию на нескольких людей "говорилок" и подключил HeyGen (пруф) для их анимации/кастомизации.

Все.

Читать полностью…

Derp Learning

26 Mar 2024 20:05

🚀SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Подход: Введение уменьшенных моделей и сокращение шагов выборки значительно снижает время генераций. Дистилляция знаний и упрощение U-Net и декодеров изображений, а также новая техника обучения DM обеспечивают прорывную скорость.

☺️ 1 шаг = 1 картинка

Обещают две модели(Старая версия SDXS-512 доступна на HF):
— SDXS-512, 100 FPS (30x faster than SD v1.5)
— SDXS-1024, 30 FPS (60x faster than SDXL)
указано, что скорость достигается на одной GPU, но без указания какой, 🐈‍⬛предположим A100.

Так же показывают, что возможно дообучение ControlNet.

INFO—PAPER—WEIGHTS(OLD SDXS-512)—COLAB(OLD SDXS-512)(Быстрый даже на T4, сделал там и вариант с видео, где батчем сразу собирается в короткий ролик)

Ждем полноценных весов и тестим на рейлтайм генерациях в СomfyUI.

Читать полностью…

Derp Learning

25 Mar 2024 19:52

Вебкамщицам к цифровой сингулярности приготовиться

https://x.com/dreamingtulpa/status/1772311202871312655?s=46&t=2mo-W_Ay5P2D-PKnXI2DOA

Читать полностью…

Derp Learning

25 Mar 2024 16:45

AnyV2V - инновационная пайплайн для редактирования видео, позволяющий использовать готовые модели для изменения первого кадра и генерации последующих кадров с сохранением согласованности с исходным видео.

Это упрощает редактирование видео до двух этапов:
— модификацию первого кадра с помощью моделей типа InstructPix2Pix, InstantID
— генерацию видео через I2VGen-XL для инверсии DDIM и инъекции признаков.

AnyV2V расширяет возможности редактирования за счёт поддержки новых задач, включая передачу стиля и редактирование, ориентированное на объект, превосходя традиционные методы по выравниванию подсказок и предпочтениям пользователей.

INFO—PAPER—GITHUB(код есть и рабочий)—DEMO(Replicate)

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml group_config.json

InstructPIX2PIX занимает больше всего времени, в стандарте 16 кадров всего из оригинального видео.

Буду следить когда добавят в ноду для ComfyUI.

Читать полностью…

Derp Learning

21 Mar 2024 11:36

Поговорим об анонимности. Например, криптовалют.

Но, для начала, надо понять что такое "свидетельство канарейки". Термин пошёл из добычи угля. Зарываясь всё глубже в землю, шахтёры рисковали нарваться на подземный газовый карман и умереть задохнувшись. Чтобы это предотвратить, они таскали с собой клетку с канарейкой. Птичка весело чирикала и прыгала туда-сюда по клетке, но благодаря быстрому обмену веществ, могла умереть даже от мельчайшего воздействия газа. Так что если канарейка в глубинах шахты вдруг переставала чирикать, все люди в срочном порядке эвакуировались.

В общем, это и есть "свидетельство канарейки" (warrant canary).

В 2001 году в США приняли "Патриотический акт", закон направленный на борьбу с терроризмом и дающий правительству права весьма широкой слежки за своими гражданами. Согласно этому акту, правительство может направить секретный приказ провайдеру услуг на слежку за пользователем. По закону, компания не имеет права разглашать, что она получила этот приказ.

Но тут вступает в силу идея с канарейкой. Да, тебе запрещено говорить о том, что ты получил такой приказ. Но тебе ничего не мешает говорить о том, что такой приказ ты не получил. Каждый день. Пока, в один прекрасный день ты просто об этом не сообщаешь и все люди, которые следят за обновлениями, точно поймут, что приказ всё же был получен.

Собственно, именно это произошло сейчас с криптовалютой Etherium. На гитхабе их сайта заметили коммит, в описании которого написано: "мы удалили раздел нижнего блока сайта, поскольку получили добровольный запрос от государственного органа, содержащий явное требование о соблюдении конфиденциальности". Говоря по-простому, до эфира добралась ФБР.

Это не значит, впрочем, что крипта полностью скомпрометирована и товарищ майор знает, когда и кому вы пересылали деньги. Это просто значит, что к сотрудникам пришли люди в форме с требованием слежки за пользователями и об этом никому сообщать было нельзя. Благодаря "свидетельству канарейки" мы знаем, что это, всё же произошло.

@zavtracast

Читать полностью…

Derp Learning

20 Mar 2024 13:00

А вот и двухминутная сцена из Fallout подъехала.

https://www.youtube.com/watch?v=Z_7jXPMu0Nk

Читать полностью…

Derp Learning

20 Mar 2024 08:26

AnimateDiff Lightning

в 10 раз быстрее оригинального AnimateDiff.
Инструкции по использованию в ComfyUI прилагаются

#text2video

Читать полностью…

Subscribe to a channel