lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Украду идею у @rybolos_channel и выложу все что лежит с пометкой шитпост

Читать полностью…

Love. Death. Transformers.

ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764

Империя наносит алаверды #2 (#1 было тут /channel/gonzo_ML/819).

Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, /channel/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.

Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.

Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).

Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.

Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.

Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.

Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.

Читать полностью…

Love. Death. Transformers.

AGI achieved externally

Читать полностью…

Love. Death. Transformers.

Скинули любопытную подборку постов, которая немного касается меня как автора этого канала:

Пару лет назад, знакомые из индустрии люди, слили мне информацию о том, что «некий российский банк с оттенком зеленого» делает канал, в котором Denis Sexy IT является референсом – то есть, они делают такой же профильный канал, но под анонимным брендом, где нейронки и шитпост тесно переплетены (это если меня спросить как я свой формат сам называю, то именно так и называю 💩🤍🤖).

По ссылке серия постов на виси, и она только от одной стороны – от менеджера который вел этот проект (точнее, заменил предыдущего, который ушел), поэтому никак подтвердить написанное я не могу, пишу я тут потому что случайно узнал, что на меня пытались быть похожими – ссылку на канал-копию тоже не даю, но я его посмотрел и похожести правда не вышло.

Если коротко:
Судя по серии постов, все споткнулось об менеджмент, сломанную иерархию, внутренние разборки, попытку маскировки хаоса под аджайл (этим страдают многие коллективы в мире), рабочую токсичность, отсутствие зон ответственности и тп и тд.

В глубину этой истории я вникать не стану, так как меня она касается только поверхностно, но я немного горжусь, что мой сельский стиль ведения канала сложно скопировать гиганту-корпорации, поэтому дам пару советов на будущее тем кто захочет, чтобы облегчить жизнь будущим редакциям или просто людям:

1. Хаос должен царить над контентом, вы не должны знать какие посты будут завтра, потому что это у редакций есть планы, а вы сюда приходите пошутить и время провести, и глуповатые штуки — то на чем все держится. Исключение: запуск Джеймса Уэбба.

17. Читатели любят оригинальный контент или мнение – с оригинальным контентом все понятно, то с мнением интересно: контента о технологиях выходит так много, что хочется просто почитать что-то, что отражает «адекватную попытку проанализировать ситуацию» – я с самого начала во многих IT-трендах занимал какую-то позицию, критиковал или хвалил что-то, и если ошибался, то признавал это публично. Такое люди ценят, и поэтому следующий пункт

2. Никаких нативных интеграций без пометки #промо – просто никогда, никакие деньги не стоят просранное доверие за подаренный планшет / ИИ-биде / новые кросовки / деньги и тп. Сейчас на канале нет рекламы (ожидается одна, которая должна однажды выйти, так как я ее должен рекламодателю и он не уже оплатил), но когда реклама выходила она всегда шла с тегом #промо. Скажу как автор относительно большого канала, количество попыток протолкнуть «интеграцию» как мое мнение, без пометок промо, всегда было большим. Доверие читателей для меня просто важно, и если я ошибусь однажды, я про это напишу тут (публично), пока вроде бог миловал

4. После начала войны у меня стало больше времени уходить на основной бизнес где я CEO, который нужно развивать и который растет, я стал меньше постить историй которые люблю сам (верю, что с ростом компании времени снова станет больше и я верну эти истории) – вот как я находил интересный контент: у меня был RSS-бот в телеграме на 20+ источников где были и твиттер акки и просто проверенные мелкие научные сайты; я мониторил сайты которые занимаются пруфчекингом – так как самые безумные/интересные истории требуют пруфчеков ☕️ (и этот хак сильно помог каналу расти, я честно его час придумал); смотрел тиктоки по интересным мне хештегам и мониторил штук ~30 интересных подреддитов на наличие тем (разными видами сортировок, чтобы не пропустить ничего). Короче, за всем этим хаосом все еще стояла работа с контентом, и бывало так что за неделю интересного не найти, и сильно помогали интересные истории из мира технологий прошлого, в мире куча же всего происходило.

Наверное эти семь пунктов довольно очевидны, но вдруг кому-то помогут сделать свой телеграм-канал мечты 💩

Читать полностью…

Love. Death. Transformers.

ржака

шутка в том что корова обучилась с кривым ревардом и думает что она бык


agi achived internally

Читать полностью…

Love. Death. Transformers.

#чтивонаночь

Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей.
Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели.


alexwortega/sYpRYOfkDYz">Sigmoid loss for Image-Text Pt дамы и господа длиннопост

paper
github

Читать полностью…

Love. Death. Transformers.

что ты сделал для хипхопа в свои годы?
что ты сделал для llm в свои годы?

Читать полностью…

Love. Death. Transformers.

борьба с тревожностью категории: /ldt

я слегка не спал последнию ночь и сидел ковырялся, взял маленький сабсет(2к картинок), разметил его llava_ой, а потом прогнал синту через gpt4.
Теперь k2.2 умеет нескольких персонажей в кадре генерить

Читать полностью…

Love. Death. Transformers.

разница сходимости на синт и не синт кэпшенах

peach-donkey - run на синте

Читать полностью…

Love. Death. Transformers.

канал, ищу связи в мск военной прокуратуре/юристов специализирующихся на военкоматах.
писать в @alexeyderden

Читать полностью…

Love. Death. Transformers.

Привет! Приходите к нам на онлайн-встречу

Дата: сегодня!
Время: 17:00 по московскому времени

Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)

Тема встречи: "AI safety — безопасность искусственного интеллекта"

О чем будем говорить:

🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему

Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!

трансляция будет в телеграм @betterdatacommunity

Читать полностью…

Love. Death. Transformers.

Привет!
Мы в Тинькофф активно занимаемся созданием больших языковых моделей по типу ChatGPT и продуктов на их основе. Для этого мы открываем набор в отдел AI-тренеров!
AI-тренеры – команда людей, которая занимается созданием эталонных примеров для обучения языковой модели, и напрямую определяет то, как в конечном счете будет вести себя нейросеть.

Сейчас мы ищем людей на две вакансии: AI-тренер и Шеф-редактор .

В задачи AI-тренера входит написание, редактирование и оценка текстов. Для координации работы команды AI-тренеров мы ищем шеф-редакторов. В обязанности шефа входит разработка инструкций и методик обучения, а также тесное взаимодействие с нашими инженерами и менеджерами продукта.

Релевантным опытом для этих вакансий будет любая работа с текстом: редакторство, копирайтинг, журналистика.

Откликнуться и подробнее прочитать про вакансии можно тут: AI-тренер и Шеф-редактор.

Читать полностью…

Love. Death. Transformers.

РАЗМЕТКА LLAVA РАЗМЕТКА LLAVA РАЗМЕТКА LLAVA AAAAAAA

Читать полностью…

Love. Death. Transformers.

Хабр в последнее время:

Ознакомиться

Читать полностью…

Love. Death. Transformers.

Давай прогуляем пары сегодня?
Неа, не могу я их веду....

Читать полностью…

Love. Death. Transformers.

Bitter lesson. Again.

Читать полностью…

Love. Death. Transformers.

Меня долго упрашивали это запостить.

Читать полностью…

Love. Death. Transformers.

Телеграмм сейчас такой типа:

Читать полностью…

Love. Death. Transformers.

кстати @cyberoleg прав, BoN сэмплинг для диффузий next big thing

Читать полностью…

Love. Death. Transformers.

Debugging RL, Without the Agonizing Pain

Статья для тех кто не ознакомлен, оказывается ее тут не было.

Читать полностью…

Love. Death. Transformers.

я отказываюсь это коментировать

Читать полностью…

Love. Death. Transformers.

Итак, я дописал полезное

https://lpetrov.cc/AI-math/

...Прошел примерно год с тех пор, как я заинтересовался интеграцией AI в свои рабочие процессы (на несколько месяцев опередив хайп вокруг GPT-4). Со временем я внедрил несколько процессов в области преподавания и исследований, и заметно ускорил выполнение многих рутинных задач.

Содержание поста - в картинке, и как видно, приложения AI у меня довольно разнообразные. Что еще посоветуете попробовать?

Читать полностью…

Love. Death. Transformers.

дропаем сет синты и кандинского обученного на сете синте?

(чем занимается админ пока его пытаются призвать на срочку)

Читать полностью…

Love. Death. Transformers.

#чтивонаночь по быстрому

Если ресерч не избежен, ресерчить надо первым.

Pixart-alpha aka dalle3 для нищих

Если вы сталкивались с претреном диффузий то знаете словосочетание laion - залупа коня. Почему? Потому что это стянутые картинки и captionы со скрауленных картинок. Те это не всегда их оригинальные подписи даже (!).
В связи с этим качество данных мягко говоря низкое.

Решение есть и оно очень простое: нам нужен smart enough captioner который может нагенерировать синтетических кэпшенов которые на несколько порядков лучше!


Авторы pixart сделали следующую схему: latent diffusion трансформер(спасибо за поправку) + T5 3b (таким кстати в начале должен был быть deepfloyd if) и самый простой kl vae на выходе.
А для данных они нагенерировали синты из llava1(рано или поздно напишу обзор), получили 0.025В очень чистых банных и обучили 600м диффузию которая лучше чем 4В dalle2, 1.5b sd1.5 !
При этом обучение стоит всего 650а100 часов, что ОЧЕНЬ дёшево, для сравнения у sd1.5 было в 10 раз больше

GitHub
Project page

Читать полностью…

Love. Death. Transformers.

Через двадцать минут поговорим про то почему LLM нас скорее всего (не) убьют!

Читать полностью…

Love. Death. Transformers.

Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.

Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.

Поэтому - рекомендую.

Читать полностью…

Love. Death. Transformers.

А чо не 1000-7, чо так мало то

Читать полностью…

Love. Death. Transformers.

Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf

Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.

Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.

Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.

Читать полностью…

Love. Death. Transformers.

Давныыым про gen ai писало полтора канала, а совместная аудитория еле переходила за границу 30к человек. Тогда я познакомился с каналам Артем, он гений бтв хотя часто притворяется что это не так! Он работал в лабе которая позже сделала Latent Diffusion, а последние несколько лет впахивает на полях Meta Gen AI, это тот нечастый случай когда человек дейстивительно знает о чем пишет, а модели трогает на работе, а не на скринах в твиттере.

Велкам в @ai_newz

Читать полностью…

Love. Death. Transformers.

НКРЯ: Мы делаем опенсурс данные, берите пользуйтесь
НКРЯ: Всмысле парсить... Кто такой этот ваш huggingface

Читать полностью…
Subscribe to a channel