4258
❤️☠️🤗 идейная миграция небытия
#чтивонаночь
Extracting Training Data from Diffusion Models
В чем идея: любая модель выучивает в некоторой мере датасет, хорошая модель выучивает что у людей пять пальцев, два глаза, работают на полях черные и вот это все.
Идея поиска очень простая:
1) генерируем картинки по частотным промптам или out of distribution(случайный запрос чтобы модель сломалась)
2) смотрим какие из из них похожи на то что было в сете
А еще выяснилось что моделе нужно повторить сэмпл пару сотен раз чтобы она начала его воспроизводить с большой точностью и вероятностью, так что все неплохо, живем.
arxiv