ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764
Империя наносит алаверды #2 (#1 было тут /channel/gonzo_ML/819).
Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, /channel/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.
Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.
Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).
Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.
Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.
Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.
Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.
Скинули любопытную подборку постов, которая немного касается меня как автора этого канала:
Пару лет назад, знакомые из индустрии люди, слили мне информацию о том, что «некий российский банк с оттенком зеленого» делает канал, в котором Denis Sexy IT является референсом – то есть, они делают такой же профильный канал, но под анонимным брендом, где нейронки и шитпост тесно переплетены (это если меня спросить как я свой формат сам называю, то именно так и называю 💩🤍🤖).
По ссылке серия постов на виси, и она только от одной стороны – от менеджера который вел этот проект (точнее, заменил предыдущего, который ушел), поэтому никак подтвердить написанное я не могу, пишу я тут потому что случайно узнал, что на меня пытались быть похожими – ссылку на канал-копию тоже не даю, но я его посмотрел и похожести правда не вышло.
Если коротко:
Судя по серии постов, все споткнулось об менеджмент, сломанную иерархию, внутренние разборки, попытку маскировки хаоса под аджайл (этим страдают многие коллективы в мире), рабочую токсичность, отсутствие зон ответственности и тп и тд.
В глубину этой истории я вникать не стану, так как меня она касается только поверхностно, но я немного горжусь, что мой сельский стиль ведения канала сложно скопировать гиганту-корпорации, поэтому дам пару советов на будущее тем кто захочет, чтобы облегчить жизнь будущим редакциям или просто людям:
1. Хаос должен царить над контентом, вы не должны знать какие посты будут завтра, потому что это у редакций есть планы, а вы сюда приходите пошутить и время провести, и глуповатые штуки — то на чем все держится. Исключение: запуск Джеймса Уэбба.
17. Читатели любят оригинальный контент или мнение – с оригинальным контентом все понятно, то с мнением интересно: контента о технологиях выходит так много, что хочется просто почитать что-то, что отражает «адекватную попытку проанализировать ситуацию» – я с самого начала во многих IT-трендах занимал какую-то позицию, критиковал или хвалил что-то, и если ошибался, то признавал это публично. Такое люди ценят, и поэтому следующий пункт
2. Никаких нативных интеграций без пометки #промо – просто никогда, никакие деньги не стоят просранное доверие за подаренный планшет / ИИ-биде / новые кросовки / деньги и тп. Сейчас на канале нет рекламы (ожидается одна, которая должна однажды выйти, так как я ее должен рекламодателю и он не уже оплатил), но когда реклама выходила она всегда шла с тегом #промо. Скажу как автор относительно большого канала, количество попыток протолкнуть «интеграцию» как мое мнение, без пометок промо, всегда было большим. Доверие читателей для меня просто важно, и если я ошибусь однажды, я про это напишу тут (публично), пока вроде бог миловал
4. После начала войны у меня стало больше времени уходить на основной бизнес где я CEO, который нужно развивать и который растет, я стал меньше постить историй которые люблю сам (верю, что с ростом компании времени снова станет больше и я верну эти истории) – вот как я находил интересный контент: у меня был RSS-бот в телеграме на 20+ источников где были и твиттер акки и просто проверенные мелкие научные сайты; я мониторил сайты которые занимаются пруфчекингом – так как самые безумные/интересные истории требуют пруфчеков ☕️ (и этот хак сильно помог каналу расти, я честно его час придумал); смотрел тиктоки по интересным мне хештегам и мониторил штук ~30 интересных подреддитов на наличие тем (разными видами сортировок, чтобы не пропустить ничего). Короче, за всем этим хаосом все еще стояла работа с контентом, и бывало так что за неделю интересного не найти, и сильно помогали интересные истории из мира технологий прошлого, в мире куча же всего происходило.
Наверное эти семь пунктов довольно очевидны, но вдруг кому-то помогут сделать свой телеграм-канал мечты 💩
ржака
шутка в том что корова обучилась с кривым ревардом и думает что она бык
agi achived internally
#чтивонаночь
Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей.
Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели.
alexwortega/sYpRYOfkDYz">Sigmoid loss for Image-Text Pt дамы и господа длиннопост
paper
github
борьба с тревожностью категории: /ldt
я слегка не спал последнию ночь и сидел ковырялся, взял маленький сабсет(2к картинок), разметил его llava_ой, а потом прогнал синту через gpt4.
Теперь k2.2 умеет нескольких персонажей в кадре генерить
канал, ищу связи в мск военной прокуратуре/юристов специализирующихся на военкоматах.
писать в @alexeyderden
Привет! Приходите к нам на онлайн-встречу
Дата: сегодня!
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
Привет!
Мы в Тинькофф активно занимаемся созданием больших языковых моделей по типу ChatGPT и продуктов на их основе. Для этого мы открываем набор в отдел AI-тренеров!
AI-тренеры – команда людей, которая занимается созданием эталонных примеров для обучения языковой модели, и напрямую определяет то, как в конечном счете будет вести себя нейросеть.
Сейчас мы ищем людей на две вакансии: AI-тренер и Шеф-редактор .
В задачи AI-тренера входит написание, редактирование и оценка текстов. Для координации работы команды AI-тренеров мы ищем шеф-редакторов. В обязанности шефа входит разработка инструкций и методик обучения, а также тесное взаимодействие с нашими инженерами и менеджерами продукта.
Релевантным опытом для этих вакансий будет любая работа с текстом: редакторство, копирайтинг, журналистика.
Откликнуться и подробнее прочитать про вакансии можно тут: AI-тренер и Шеф-редактор.
Debugging RL, Without the Agonizing Pain
Статья для тех кто не ознакомлен, оказывается ее тут не было.
Итак, я дописал полезное
https://lpetrov.cc/AI-math/
...Прошел примерно год с тех пор, как я заинтересовался интеграцией AI в свои рабочие процессы (на несколько месяцев опередив хайп вокруг GPT-4). Со временем я внедрил несколько процессов в области преподавания и исследований, и заметно ускорил выполнение многих рутинных задач.
Содержание поста - в картинке, и как видно, приложения AI у меня довольно разнообразные. Что еще посоветуете попробовать?
дропаем сет синты и кандинского обученного на сете синте?
(чем занимается админ пока его пытаются призвать на срочку)
#чтивонаночь по быстрому
Если ресерч не избежен, ресерчить надо первым.
Pixart-alpha aka dalle3 для нищих
Если вы сталкивались с претреном диффузий то знаете словосочетание laion - залупа коня. Почему? Потому что это стянутые картинки и captionы со скрауленных картинок. Те это не всегда их оригинальные подписи даже (!).
В связи с этим качество данных мягко говоря низкое.
Решение есть и оно очень простое: нам нужен smart enough captioner который может нагенерировать синтетических кэпшенов которые на несколько порядков лучше!
Авторы pixart сделали следующую схему: latent diffusion трансформер(спасибо за поправку) + T5 3b (таким кстати в начале должен был быть deepfloyd if) и самый простой kl vae на выходе.
А для данных они нагенерировали синты из llava1(рано или поздно напишу обзор), получили 0.025В очень чистых банных и обучили 600м диффузию которая лучше чем 4В dalle2, 1.5b sd1.5 !
При этом обучение стоит всего 650а100 часов, что ОЧЕНЬ дёшево, для сравнения у sd1.5 было в 10 раз больше
GitHub
Project page
Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.
Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.
Поэтому - рекомендую.
Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf
Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.
Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.
Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
Давныыым про gen ai писало полтора канала, а совместная аудитория еле переходила за границу 30к человек. Тогда я познакомился с каналам Артем, он гений бтв хотя часто притворяется что это не так! Он работал в лабе которая позже сделала Latent Diffusion, а последние несколько лет впахивает на полях Meta Gen AI, это тот нечастый случай когда человек дейстивительно знает о чем пишет, а модели трогает на работе, а не на скринах в твиттере.
Велкам в @ai_newz
НКРЯ: Мы делаем опенсурс данные, берите пользуйтесь
НКРЯ: Всмысле парсить... Кто такой этот ваш huggingface