derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

12278

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

В нейронке PixVerse появился фильтр, который превращает фотографии в видео, где вас обнимает Иисус.

Пользователи начали тестировать его на своих питомцах, татуировках и прочих вещах. Получилось максимально проклято.

Тоже можете попробовать. Там несколько генераций бесплатно
r/#aivideo

Читать полностью…

Derp Learning

56 это до или после налогов? 🤔

Читать полностью…

Derp Learning

Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

Читать полностью…

Derp Learning

DiffSplat для гиков.

Тут в тиктоке зафайнтюнили диффузионные картинкогенераторы так, чтобы они сразу генерили Гауссиановые Сплаты. Напрямую.
Внимание - за 1-2 секунды, по промпту или одной картинке.

DiffSplat is a generative framework to synthesize 3D Gaussian Splats from text prompts & single-view images in ⚡️ 1~2 seconds. It is fine-tuned directly from a pretrained text-to-image diffusion model

Надо бы обновить тему сплатов - это один из кандидатов на новые игровые и неигровые движки.

https://chenguolin.github.io/projects/DiffSplat/

@cgevent

Читать полностью…

Derp Learning

Тем временем мамкины спамеры начали переключать шлюхоботов на Deepseek (тому шо дешевле в 10 раз).

Что могло пойти не так?

Читать полностью…

Derp Learning

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

Читать полностью…

Derp Learning

Дожили! Теперь можно заниматься машинным обучением в футбольном клубе!

Читать полностью…

Derp Learning

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!

Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.

авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.


paper

Читать полностью…

Derp Learning

Как выглядит интерфейс DDOS-атаки на сервер в 2025 году

👏

Читать полностью…

Derp Learning

Забавно, в этом пейпере указали стоимость обучения 1890$ (2.6 8xH100 дней), т.е. 3.7$/gpu/час
Сейчас несложно найти 8xH100 за 2.99$/gpu/час
Т.е. с момента обучения до выхода статьи процесс подешевел до 1492$, почти на 20%!
Пишем новый пейпер "waiting for a few months is all you need"

Читать полностью…

Derp Learning

Вот вам пример видеогенерации, от которого у меня немного закипел мозг.

Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!

И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.

Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху (тут есть момент, чтобы писать такой промпт, надо как бы быть в супервайзерской теме, но об этом в другой раз).

Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.

Подробности тут.

Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.

Попробуйте в Клинге что ли...

@cgevent

Читать полностью…

Derp Learning

Ахахахаха напомнило мне как на какой-то конфе по wearables я встретил Филипп Кана, фаундера Borland

Я рассказал ему, как ещё школьником писал на борланд си в 91 году в компьютерной лабе у папы в институте, и студент, который там подрабатывал, был для меня прям начальник, инженеры - магами, а начальник лабы - богом

И тут я говорю с фаундером бля борланда, если бы тридцать лет назад мне кто-то такое сказал я б не поверил

А он мне рассказывает как в 90 он поехал делать бизнес в Москве, и как всё накрылось во время путча и как они с помощью бандитов получили свою инвестицию назад вагоном икры и вагоном водки

Читать полностью…

Derp Learning

Программист провёл расчёты, чтобы выяснить, насколько эффективно дарить инженерам из компании конкурентов Factorio, чтобы саботировать их работу. В качестве примера он взял стартап Палмера Лаки Anduril, который работает на армию США.

Автор расчётов взял данные о доходах сотрудников компании и раскидал их на три категории: 20% тех, у кого уже есть Factorio, 60% неиграющих и 20% тех, кто будет проводить 1-5 часов в день после того, как внезапно получит Factorio.

Каждый инженер из последней категории будет в среднем приносить убыток компании в $84 в неделю. При этом Factorio с DLC обойдётся в $70.

@zavtracast

Читать полностью…

Derp Learning

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

К Sam2 прикрутили llava, и теперь можно сегментировать картинки и видео по текстовому запросу, как было в sam+grounding dino.

Трекает тоже хорошо, даже с перекрытием объектов.

X
Demo
Paper

@derplearning

Читать полностью…

Derp Learning

Тем временем SANA стала ваистену опенсорсной (правда, только код :D)
https://github.com/NVlabs/Sana

Читать полностью…

Derp Learning

@derplearning

Читать полностью…

Derp Learning

Клип, сделанный Ruairi Robinson для Steve Moore.
Ruairi - режиссер со стажем, несколько раз номинировался на Оскар, с графикой знаком давно, в общем, знает, что делает.
Этот кусок ничем не хуже, чем какой-нибудь Gessafershtein.
Выглядит мощно, звучит тоже! AI only.

Relevant, best, and no comments 🔥
Youtube

Читать полностью…

Derp Learning

Швейцарский стартап FinalSpark начал работу по созданию первого в мире биокомпьютера!

Учёные вырастили 16 органоидов человеческого мозга, способных обучаться и обрабатывать информацию. При этом доступ к их исследованию можно получить удалённо через онлайн-платформу Neuroplatform.

По словам компании, эти биопроцессоры потребляют в миллион раз меньше энергии, чем традиционные цифровые процессоры, и могут стать следующим эволюционным скачком для искусственного интеллекта.

В качестве демонстрации возможностей своей революционной работы FinalSpark создали виртуальный мир с моделью бабочки, управляемой непосредственно органоидами мозга.

«Это значительный шаг на пути исследований в области сохранения когнитивных функций человека и загрузки сознания»


Любители научной фантастики здесь? 👀👀

Читать полностью…

Derp Learning

> ТЫ ОБЫЧНЫЙ УГА-БУГА

> Молодняк не хочет тащить камни на руках

> Используют какое-то новомодное "колесо"

> Совсем привыкнут к нему и ослабнут

> Недовольно бурчишь

Читать полностью…

Derp Learning

One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений

Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.

В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.

Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.

Статья, GitHub

Читать полностью…

Derp Learning

Значит, смотрите, все как учил вас в 2025!

Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!

Читать полностью…

Derp Learning

Look how the turntables!

Source

Читать полностью…

Derp Learning

В Suno появилась функция audio input, теперь можно записать свои звуки, речь, и собрать из этого композицию.

Я когда спотифай слушаю, каждый раз ловлю себя на мысли сколько сгенерированных треков я уже послушал не подозревая этого.

На сколько просто теперь стало делать музыку, все еще удивляюсь.

Читать полностью…

Derp Learning

Good Things Go (Official Audio Visualizer) - Linkin Park
Внезапно, На правах замедления ютуба
сорс

Читать полностью…

Derp Learning

Пожалуй, хватит интернета на сегодня

@derplearning

Читать полностью…

Derp Learning

Тем временем в SpaceX устроили незапланированный салют памяти Дэвида Линча

Читать полностью…

Derp Learning

А ещё vp vlc делал nginx 😅

Читать полностью…

Derp Learning

MicroDiT;
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Внезапно, Sony Research выкатили фреймворк для обучения 1.16b DiT до уровня StableDiffusion 1.5 за 2k$ с нуля.

Если мне не изменяет память, sd1.x обошелся в 130000$ :D

В целом, давно хотелось какого-то text2img бенчмарка вроде llm.c от Карпатыча, но при этом не на основе непонятного претрена, и с результатом, который можно оценить не только по метрикам, но и визуально.

Чтобы тестить разные архитектурные фишки с понятным бейзлайном.
Например, натренить эту модель с DC-AE и другими фишками из EfficientViT\SANA

Т.к. модель тренят в 4 этапа (256+маска, 256, 512+маска, 512), вполне можно гонять тесты на 256х256.

Ура товарищи!

paper
code
models

@derplearning

Читать полностью…

Derp Learning

Llamav-o1

Файнтюн 11b llama-vision-inctruct на chain of thought неплохо вкатился в бенчи - где-то показывает себя па уровне gpt40k gpt4o-mini

Model
Paper

Читать полностью…

Derp Learning

Real World Photography Experimenter

Рубрика крутые подписчики.

Саша Мелентьев прислал мне очень годный Workflow в ComfyUI для комбинирования трех изображений в одну фотореалистичную фотографию. Доступен в облаке по ссылке ниже.

Очень хорош для создания "ювелирки", продуктовой фотографии, для портретов людей, а также для генерации концептов окружения. И, наверное, много чего еще...

Для примера. Берем подводный 3D рендер в Style, фотографию улицы в Env, кольцо с камнем в Obj - получаем кольцо на коралле в затопленном городе.

Тест здесь. Real World Photography Experimenter

Вообще, этот пост, судить если по картинкам в генерации, можно назвать "Девушка или ваза".

@cgevent

Читать полностью…
Subscribe to a channel