how opensource feels in middle 2023:
я не выложил две модели с llama1 они уже устарели...
история о том, как чуваки, применив наработки deepmind в сфере transfer learning, обучили CodeBert взяв за основу RoBERTa используя только адаптеры
Описанное выше на самом деле находится в этой статье, где авторы делятся опытом transfer learning с помощью адаптеров для создания мультимодальной модели (язык - код). А подводка следующая☕️:
Все наверняка уже слышали по 10050 раз, особенно в последнее время о том, что такое адаптер (2019). Но если вспомнить базовый механизм за счет которого все работает, то можно описать следующим образом: берем доп слой, вставляем где-то между слоями исходной модели, и обучаем, замораживая исходные веса. Это позволяет моделе узнавать новые задачи, при этом тратя меньше ресурсов при обучении.
В какой-то момент, изначально в CV, поняли. что можно обучить много адаптеров (каждый на определенную задачу), а потом использовать знания от всех и решать тем самым мульти-таск. Это конечно очень крутая идея, но имеет недостаток в виде забывчивости из-за разного веса каждого адаптера. Тогда приходят люди из deepmind и говорят о том, что вот есть некий подход AdapterFusion (2021), который направлен на то, чтобы решить эту проблему следующим образом в 2 стадии: сначала помимо параметров, обучаеммых в каждом из адаптеров, обучается и еще отдельный параметр, который учится запоминать, что за адаптер мы используем в данный момент, а на втором шаге мы учим с помощью неожиданно, но факт механизма внимания, комбинировать вместе все адаптеры. Собственно вся эта конструкция располагается между двумя residual connection
Итак, к чему мы вообще заговорили про комбинирование многих адаптеров вместе. Через некоторое непродолжительное время Deepmind пошли дальше и придумали подход MAD-X, способный за счет адаптеров не только реализовать cross-task модели, но и cross-lingual. Так как обычный pipeline тренировки (когда мы обучаем на новом языке модель с MLM, чтобы выучить язык) ведет опять же к забывчивости модели, ребята откапытвают свой подход FusionAdapter и модифицируют его еще и на обучаемость новым языкам. Теперь подход состоит уже из 3 частей. Adapter-L (адаптер языковой), который по расположению берет свою идею из предыдущей стать и располагает также после residual connection; Adapter-T, который идейно похож на Adapter-L, но располагается после нескольких языковых адаптеров и Invertible Adapters, который направлен на захват преобразований, специфичных для языка на уровне токенов. Идея такая: все эти адаптеры обучаются совместо, естл адаптер языка нового и языка, который уже был в модели, это касается и инфертированного адаптера. При инференсе мы можем отключать один из языков и подавать output от него в адаптер задач. Тем самым модель будет способна решать задачи на разных языках
Возвращаясь к тренировки СodeBert с помощью MAD-X. Они обучили Adapter-L на каждый из языков программирования, представленных в модели CodeBert и 2 задачи, используемые в модели на pretrain (Masked Language Modeling (MLM) – идея из оригинальной статьи BERT и Replaced Token Detection (RTD) – идея из оригинальной статьи ELECTRA). В итоге они получили весьма сравнительные результаты используя лишь адаптеры
🖥Репозиторий с библиотекой адаптеров
🖥Код экперементов чуваков
🔥FlashAttention-2: опять в два раза быстрее
Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!
Статья, GitHub
Новость одной строкой: ходят слухи, что META готовит релиз LLAMA-2, причём, с коммерческой лицензией на использование. И модель, конечно, будет умнее, дополнительно натренирована на коде (и как будто даже изображениях!).
Ждём всем опенсурс-сообществом!
(сори, вышло больше одной строки)
Источник
#чтивонаночь
Казалось бы, может ли без тюна, простым алгоритмом LLama7b побить PALM 540B на бенче LAMBAD где топят жирные модели?
Может если применить методы из диффузий, подробнее в сегодняшнем посте
alexwortega/4Th909YaSgg">читать сюда
arxiv
Иронично как сильно порнушные LORA адаптеры продвинули генерацию изображений, у людей была ПИЗДАТАЯ мотивация, оцените пальцы, а это ведь sd1.5 обычная.Вообще удивительно как сильно порнушные text модели отстают от t2i, сразу чувствуется мотивации не хватаетС каждым днем все сильнее верю в то что модель которая побьет gpt4 будет страшным мержем LORA моделей с classifier free guidence
Ссылка на очередную поучительно забавную историю про то как сео слегка поимел сотрудников(нет)
Где то в Лондоне в это время:
Братан, да какой ты специалист по нейросетям? Ты все тот же токарь, оператор нейрогенерационного станка ЧПУ, графический фрезеровщик — весь в отца, работяга, заводская порода.
Запихнул болванку дата-сета, ввел параметры, нажал кнопку, ушел айкос курить да в чате с цеховыми пиздеть, вернулся — деталька выточилась уже. Перекинул ее в другой станок, подшлифовал, руками поправил где надо — красота. А вот и смена кончилась, криптополучка пришла, пошел с мужиками по зуму бухать.
#чтивонаночь по быстрому
“Low-Resource” Text Classification: A Parameter-Free Classification
Method with Compressors
идея простая: давайте возьмем gzip,zip или любой равномерный сжиматель данных, пожмем наш трейн(около мгновенно на любых размерах), а затем KNNом находить ближайший класс на инференсе! Ура победа!!
А по метрикам оно лучше многих тяжелых нейросетевых решений
code
NeurIPS Large Language Model Efficiency Challenge: 1 LLM + 1GPU + 1Day https://llm-efficiency-challenge.github.io/challenge
Читать полностью…Знаете, я ведь с детства любил наряжать куклы в разные платья. Кому-то больше подходит розовое, кому-то красное, а кто-то лучше выглядит в модных брюках-клеш. Моя любовь к нарядам помогает и в профессиональной сфере. Я представляю себе, что активации -- это кофточки, инициализация -- косметика, а оптимайзеры -- туфельки. Ведь оптимайзеры как обувь: где-то нужны резиновые сапоги, а где-то нежные, бархатные ботинки "прощай молодость"; а лернинг рейты как носочки: с начесом, для warmup начала; или грязные, вонючие, засохшие носки как константный шедулер.
Вообще, детство можно считать отправной точкой моей исследовательской карьеры. В детском саду я всегда старался обойти всех и найти самый быстрый путь к горшку. Вы спросите меня: какой смысл? Ведь они все стоят рядом и нет никакой существенной разницы! Но ведь разница сотых долей секунды была! Никогда не забуду того удовольствия, когда удавалось выбрать нужную траектори и поставить новый рекорд, занять позицию на тысячную долю секунды быстрее! Именно тогда я почуствовал истинный запах и вкус соты.
В школе друзей у меня не было, но зато учился я очень даже хорошо: в третьем классе я решил свою первую СЛАУ, в четвером узнал что такое производная и строил графики до одури, до онемения в пальзах, до сточенного в пыль карандаша. Долгое время моим воспитанием занималась бабушка. Бабушка был немногословной и очень строгой. Она никогда не рассказывала мне о том, как устроен мир. Она буквально воспитывала меня кнутом и пряником: я что-то пробовал, а в ответ получал либо удар, либо котлету. Тогда то я и почуствовал собственной шкурой горький вкус реварда.
Сдать ЕГЭ было проще простого. Я поступил в МФТИ. Знаете, мне очень нравилась местная атмосфера. Отчужденность от мира. Необычные люди. Завораживающее, дарующие чувство свободны, открытые окна.
На третьем курсе мне удалось найти свою первую стажировку. Опуская подробности, скажу лишь что это была одна из тысяч аутсорс галер. Именно тогда я сделал себе прививку от продакшена и зарекся никогда больше не катить в прод. Я вычеркнул из своей жизни букву D, оставив только жирную R. Мне кажется что каждый уважающий себя исследователь должен хоть раз сходить в плавание на dev галере, чтобы иметь опыт и право так или иначе высказываться по существу.
Диплом писал по довольно обскурной теме. Пока все переводили датасеты на русский, я открывал для себя различные сферы: исследовал топологии, бороздил океаны негладкой оптимизации, зубрил свойства распределений и собственноручно доказывал предельные теоремы. Я смотрел на своих одногруппников свысока. Я знал, что дальше они пойдут надрачивать бизнес метрики, собирать контейнеры и вести свою скучную жизнь рабов корпораций. А я не такой. Я выше этого.
Свобода - в открытом оверлифе.
Весь мир - лаборатория.
Весь смысл - ресерч.
#ml
Отличный туториал по генерации текста с помощью LLM на ACL 2023.
Внутри введение в языковые модели, взгляд на задачу с точки зрения теории информации, алгоритмы семплирования (т.е. генерации текста) с помощью языковых моделей. Так же есть ноутбуки с кодом от базового использования Huggingface для генерации до написания своего семплера. Наконец, дается много полезных ссылок на статьи и курсы.
По сути это мини-курс по NLP для тех, кто немного знаком с современными языковыми моделями.
https://rycolab.io/classes/acl-2023-tutorial/
🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования
Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)
Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B
Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!
По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5
📄 Paper
📇 Blog
💻 Download Llama2
Максимальное сжатие по вайсману?Если кто то не знал, то gpu используются при обучении в лучшем случае на 50% от теоретического максимума, для того чтобы стать ближе к нему любят всякие страшные хаки - tensor/pipeline paralel, flash attention и прочие: а чо то у меня не работает.
Оригинальный флеш получал основное ускорение за счет простой идеи: мы используем поблочное умножение для Q,V + хранили экспоненты для вычисленных значений, что позволяло экономить на IO.
При этом еще вычисляют все слои внутри одного cuda kernel что экономит на IO + используют быстрый L2 L3 cache.
Второй flash attention это почти алгоритм из центра наружу, авторы выкинули экспоненты и высчитаывают градиенты на слой по диагональным статистикам + только в конце каждой итерации умножения они скейлят градиенты(из block matmul)
+ вместо хранения сум экспонент они хранят только logsumexp;
красивое....
#чтивонаночь по быстрому
RLTF: Reinforcement Learning from Unit Test Feedback
Ну короче, yet another RL paper, толльок тут используются Unit test signal, те код комплиться, выполняется, на выходе три вида ответа: Error, F ailure или Pass, решаем или нет и кормим фидбек + ревард дискретный и бьет модель по бошке за любые ошибки что позволяет не скатываться в низкий ревард ловушку.
ну и бонусом это все выдает SOTA на MBPP(ну типа prompt - code - unit test)
paper
код
Ждём когда как о RLhf будет o cfg из каждого утюга, тогда им реально будут заниматься, а не "а что ета, а зачем ета..."
Next steps: тонкий обучаемый адаптер для более правильного ранжирования по промпту
Чат, расскажите какими text2image API (обратите внимание API) вы пользуетесь, чего не хватает, для чего пользуетесь
Читать полностью…#промо
Академия Data Science от Тинькофф!
Учитесь у лучших экспертов Тинькофф и других ИТ-компаний в современном кампусе в центре Москвы. Подойдет студентам технических вузов, начинающим ИТ-специалистам и всем, кто мечтает о карьере в Data Science.
Подробнее здесь: https://l.tinkoff.ru/master.ds.2023
к слову это весь код, ага...
Когда сегодня утром Кирилл кинул мне этот код я подумал что это прикол и я прокомментировал это как: Чо за olympyad style code? Слили кодовую базу tg?
Админ узнал о технарской конференции по нейросетям и ИИ и спешит поделиться ей с вами.
Уже завтра топовые ресерчеры расскажут, как по-новому тюнить LLM-ки, какой ядреный ресерч можно мутить в физике с генеративными моделями, как пилили Кандинского, что-то про сопоставительное обучение, дипфейки и много чего еще. Даже нейропсихолога завезли, прикол. Будет пояснять за естественные нейронные сети.
Конфа пройдет уже завтра (т.е 14 июля) и на весь день, так что залетайте в последний вагон на сайте https://neuro-set.ru. А еще есть подгон от организаторов - с промокодом LOVE.AI.CONF будет скидка 20%.
#реклама
PPO не работает, но от него никто ничего не ждет, пизженные LM корячат люди достойные кастрации...
Читать полностью…Кринже фрики продолжают приблежать восстание машин, думаю вариант сценария:
Встраивают системы антивандализма
GptX слегка выходит за полномочия/какой то псих устраивает небольшой баг, все люди - нарушители, тысячи роботов доставщиков доставляют пиццу и только с ананасами и только анально
Чат, тут вышло погулять yet another 100500 файнтюнов лламы, на что хотите разбор (прям много букф), пишите в комментариях, либо про эволюцию stable diffusion?