❤️☠️🤗 идейная миграция небытия
Обсуждения новых статей, в чате канала -
@chat_cats_ldr
#чтивонаночь
Решаем любую задачу не зная решения, Composing Ensembles of Pre-trained Models via Iterative Consensus
Идея простая: берем некторый генератор(gpt), берем некоторый scorer и начинаем итеративно генерировать гипотезы, прогоняем их через классификатор и показываем снова генератору, тем самым по сути совершая adversial атаку на gpt.
Неожиданно такой подход бьет SOTA на
-Video QA
В целом подход дает очень хорошие резы практически на всех мультимодальных бенчах включая генерацию картинок(тут генератором выступил GLIDE)
сайт
code - нет, полагаю это довольно медленная штука
paper
Kaggle Accelerator
Ещё неделю назад заметил новую фичу на Kaggle, помимо конфигураций P100 (16 гб), TPU v3-8, теперь доступны T4×2 (15 + 15 гб видеопамяти).
P100 они не заменят и будут уступать, но позволят:
1) При должном желании (сложно) запускать 2 эксперимента вместо одного, при этом недельная квота GPU (30-40 часов) общая для T4×2 и P100, а это дополнительные гпу часы.
2) Ускорить инференс/обучение (в некоторых случаях).
3) Тюнить параметры параллельно.
4) Запускать большие модели (до 30 гб).
Кажется что это самый большой плюс.
Да, все ещё неудобно, но лучше чем zero-offload.
Training using 2 T4 with Pytorch DataParallel
Single-Machine Model Parallel Best Practices
Однажды Эрнест хэменгуей поспорил что напишет самую грустную историю из пяти слов:
Годную идею проебал хуевый менджмент
левый столбик: нормальная работа
правый столбик: бот в тг на выходных
Крутые ребята ищут Senior Product Analyst
Задачи:
- искать связь продуктовых и технических метрик
-растить продуктовые метрики
-строить гипотезы на основе данных
По хардам:
-уметь sql, python, superset и прочее
-если умеешь в NLP - отлично
Бонусом будет если:
-закончили шад/озон мастерс
-уже строили успешные продукты
По деньгам:
без ограничений, все зависит от кандидата, обсуждаем %
Кидать cv @Alexwortegaa
Why can’t programmers tell the difference between Halloween & Christmas? Because oct 31 = dec 25.
Читать полностью…Хуй сосать все умеют, а вот собрать apex нет
Читать полностью…Во-вторых, я от вас уже давным-давно скрываю что я/мы делаем стартап! Вот этот: spiritme.tech. Посмотрите видосы на лендинге, оч горжусь ими! (хотя конечно качество будет еще лучше потом))
Basically, это text2video сервис: пишешь текст и по нему генерируется видео с челиком, который проговаривает этот текст. У нас новые идеи, лучше качество, более просто сделать своего аватара, вот это всё.
Мы как-то очень плавно перешли из состояния “давайте протестируем жизнеспособность идей” в фултайм работу. И было непонятно в какой момент уже пора рассказывать, к чему приурочить.
Но! Сейчас уже точно пора, потому что уже скоро у нас будет много публичных новостей, и можно будет хвастаться
eDiffi: новая SOTA text-to-image диффузионная модель от Nvidia, которая также хорошо умеет в style transfer и генерацию картинок по скетчам (!)
Авторы eDiff пристально посмотрели на то, как происходит генерация картинок диффузионными моделями, и нашли две интересные особенности. Эти особенности они затем использовали для построения более эффективной архитектуры модели.
Вот что за особенности:
1️⃣ Как мы знаем, диффузия генерирует картинку шаг за шагом, на каждом шаге чуть уменьшая зашумленность картинки. Ребята из Nvidia внимательно посмотрели на этот процесс и заметили, что на первых шагах алгоритма (когда картинка представляет из себя практически гауссов шум), значения матрицы cross-attention между пикселями картинки и эмбеддингами текста довольно большие. Т.е. это значит, что на первых шагах алгоритм сильно опирается на текст, чтобы сгенерировать следующую картинку. А на последних шагах алгоритма, когда картинка уже почти готова и шума осталось мало, значения матрицы cross-attention малы. Это значит, что модель практически игнорирует текст на этом этапе.
Это звучит логично: на первых шагах входящая картинка — это просто случайный шум, и модель “смотрит” на текст, чтобы понять, что вообще генерировать. А на последних шагах все объекты на изображении уже расставлены, и задача модели — добиться визуальной красоты, убрать малый остаточный шум, причесать детали.
В связи с этим авторы предположили, что иметь лишь одну модель для всех стадий генерации картинки из шума не оптимально. Она ведь, по сути, разные задачи на разных этапах решает. Поэтому они педложили сделать три модели: одну для начальных этапов (когда нужно сильно смотреть на текст), вторую для середины процесса, третью — для финала (когда нужно “причесывать детали”).
Чтобы сильно не увеличивать время обучения (три модели обучать дороже), авторы сначала обучают одну модель, как обычно это и делается, и затем делят ее на три и немного дообучают их каждую для своей стадии.
Эта идея позволяет получить SOTA диффузию на датасете COCO 2014, и обойти Imagen, Parti, Stable Diffusion и другие модели.
2️⃣ Идея номер два связана с то, каким образом получаются эмбеддинги текста. Мы помним, что DALL-E 2 использует эмбеддинги предобученного CLIP, а Imagen и многие другие модели — эмбеддинги из языковой модели T5 (тоже предобученной). Переход от CLIP к T5, казалось бы, улучшил результаты: детали генерируемых картинок стали более четкими, на них даже начал появляться осмысленный текст.
Однако не все так однозначно (эта фраза вызвала нервую улыбку, простите)). Похоже, эмбеддинги CLIP и T5 каждый по-своему хороши. Диффузия с эмбеддингами CLIP позволяет получить более “цельно” выглядящую картинку, все детили которой хорошо согласуются между собой. Эмбеддинги T5 же делают детали картинки более проработанными.
Идея тогда проста: обучать сеть на обоих эмбедднгах сразу. И это помогает: картинки становятся в целом еще лучшего визуального качества. Метрика FID-CLIP для такой модели также выше, чем для моделей, обученных только с CLIP или только с T5.
Вот такая общая идея модели. Лакончично и практично. Но и это еще не все: авторы также придумали, как делать классный style transfer и генерацию изображений по скетчам. Об этом будут следующие посты⬇️
📃 Статья
Если хотите залипнуть, друзья технари
⚠️ не открывать во время работы ⚠️
🔗 https://www.decisionproblem.com/paperclips/index2.html
offload придумали те кто не умеет в freeze
Читать полностью…Лежат заключённые на нарах, после отбоя. Вдруг, из одного угла слышится: 14.
Вся камера начинает заливисто смеяться.
Из другого угла: 37.
Камера опять ржёт.
Новенький арестант спрашивает у лежащего рядом старожила:
- А че это за цифры из-за которых все в камере смеются?
Старый отвечает:
- Понимаешь, кореш, давно тут сидим, все анекдоты уже рассказали и, чтобы не повторять каждый раз, присвоили им номера. Называет кто-то номер анекдота, а все остальные вспоминают и смеются.
Новенький на всю камеру:
— nan!
— Kernel panic - not syncing: nvhost_scale_emc_debug_init
Новенький был осуждён за убитый трейн.
вы вообще сами то читаете хуйню которую пишитe
habr
Поговорим про задачу image captioning.
Кто то использует модели? Если да, для чего и на каком языке.
Делитесь в комментариях
Где бы ты не был, подумай что было тут 100 лет назад, а что будет через 100 лет.
Читать полностью…MagicMix: Semantic Mixing with Diffusion Models
(кажется 8) работа на тему: а давайте как нибудь подумаем как редактировать картинки.
в чем идея этой:
давайте зашумим картинку, затем возьмем и сгенериуем начало шума картинки для нужного концепта, затем шумы складываются и получается что модно управлять и shape и текстурой без потери качества.
paper
Парень нашел бродячего котика в саду у подруги, просканировал его флиппером, нашел его хозяев по айди и вернул его им. Оказалось что кот убежал из дома два года назад.
Я считаю что код для сканирования животных это самый добрый код что я писал.
https://discord.com/channels/740930220399525928/746304505879986267/1036339525070356550
Очень интересно как на следующей итерации обучения моделей t2i будут бороться с сгенерированными картинками
Читать полностью…Люди с айкью больше 140 и меньше 60 верят в одни теории заговора
Читать полностью…