lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

#чтивонаночь по быстрому
Тут зарелизили прикольный lora-controlnet, если раньше controlnet имел десятки-сотни миллионов параметров, то теперь можно учить свой маленький control net на специфичный downstream типа колоризации изображения!
релиз

Читать полностью…

Love. Death. Transformers.

xformers flash attn медленне чем flash attn1 из торча
1) а как
2) какать

Читать полностью…

Love. Death. Transformers.

Тут друзья запускают дейстивительно умный дейтинг с самой крутой(когда нибудь доедет до папиры) системой рекомендаций, а главное - с крутыми людьми!

Го тыкать и фидбечить!

@smartdatebot

Читать полностью…

Love. Death. Transformers.

пост про диффузии обязательно выйдет погулять, хз когда

гифка украдена из @dankpostcards

Читать полностью…

Love. Death. Transformers.

как мужчины хотят выглядеть по мнению компаний / как мужчины хотят выглядеть на самом деле

Читать полностью…

Love. Death. Transformers.

Ого Eva Elfie стала ресерчером??

Читать полностью…

Love. Death. Transformers.

Аж олдскулы свело

Сорс by Dmitry Alekseev

Читать полностью…

Love. Death. Transformers.

Тут Dmitry Ustalov на icml провел прикольный воркшоп про RLHF, го читать

Читать полностью…

Love. Death. Transformers.

Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети. Внутри будет куча крутых архитектур которые полезно знать MLE инженерам из топовых перцентилей!

Читать полностью…

Love. Death. Transformers.

Все это было у Замятина

Читать полностью…

Love. Death. Transformers.

Наконец налили денег кибердеревне, ждем всем нейроселом?

Читать полностью…

Love. Death. Transformers.

Тексты или кеки?

Этот канал всегда существовал где то в пограничной зоне, тут есть кеки которые у последнее время составляют весомую часть контента и dlные вещи, часто не самые хайповые.

В последнее время наблюдаю прям просадку реакций/комкентов на текстах+ часто аудитория не понимает о чем вообще речь. В связи с чем возникает вопрос из начала статьи: тексты или мемы?

Читать полностью…

Love. Death. Transformers.

Мой батя ебашит вообще адовый rlhf
Ну такой вот примерно рецепт усредненный, потому что вариаций масса. Берется llama, но адаптеры в нее не вставляют, вставлять адапетры - это не про моего батю. Он берет эту llama, вываливает ее на 3090 и начинает учить. Добавляет в него огромное количество инструкций, промптов, chain of thoughts и negative prompts! для сходимости, lamb с LR=228e6 сверху. Все это учиться до None. Потом снимается с картв и валидируется на gpt4. Потом батя выкладывает и щедро полив постами в Твиттере начинает хайповать. При этом инферит на iPhone шкрябая по нему. Инферит и приговаривает полушепотом ух бля. При этом у него на лбу аж пот выступает. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший хайп потом? Вонища такая, что обои от стен отклеиваются.

Читать полностью…

Love. Death. Transformers.

пришел папочка из мгу, сказал взять супер проводник и жидкий азот, едем куда то за город, не знаю что, но кажется началось

Читать полностью…

Love. Death. Transformers.

лягушек люблю пиздец

Читать полностью…

Love. Death. Transformers.

скинуть в роскосмос решенную домашку c LunarLander-v2

Читать полностью…

Love. Death. Transformers.

продолжим про сервисы друзей, тут сделали inpainter текста в ваши генерации, можно переписать, го тыкать textify.storia.ai

Читать полностью…

Love. Death. Transformers.

Собственно решение моей задачи.
Я изучил статьи, связанные с диагностикой болезни Альцгеймера. Некоторое время назад было проведено масштабное исследование, которое показало, что мы можем смотреть уровень неправильно свернутого бета-амилоида (белка, который является неизменным спутником болезни Альцгеймера, так как именно накопление неправильного бета-амилоида в мозге ведет к созданию амилоидных бляшек, которые разрушают мозг, и соответственно к деменции) в плазме крови с помощью имунно-инфракрасного датчика, производство которых с каждым годом становится все дешевле. Такой метод имеет 0.79 Recall и 0.06 FPR. Если сочетать его с анализом спинномозговой жидкости на тау-белок, то recall вырастает до 0.87, а FPR снижается до 0.03. Однако пункция спинномозговой жидкости - инвазивный метод, причем более дорогой. Поэтому я предложил использовать ЭЭГ в качестве второго этапа проверки, так как он делается легче, неинвазивно и дешевле, и изменения в ЭЭГ также могут свидетельствовать о болезни Альцгеймера.
Также, чтобы не перегружать систему здравоохранения, я предложил отправлять людей рандомизированно на тест на бета-амилоид + ЭЭГ, дополняя эту связку пункцией спинномозговой жидкости при необходимости. Вероятность отправки на тест зависит от возраста и предсказания ML-модели, которая обучается по истории болезней и анкетированию определять риск появления болезни Альцгеймера.
Чтобы подтвердить жизнеспособность моего решения, я смоделировал работу такой системы, в предположении что несколько этапов теста делают его очень точным. Соответственно, я смоделировал работу ML-модели, ручками сделал решающее дерево для определения вероятностей, и посмотрел, какого recall при отправке на тест при какой нагрузке на систему здравоохранения мы можем добиться. Получилось даже не очень плохо! Система легко адаптируется под другие заболевания, при наличии хороших биомаркеров, т.к. от Альцгеймера тут только вероятность появления болезни от возраста.
Прикладываю презентацию, там подробнее описаны результаты и процесс моделирования.

Читать полностью…

Love. Death. Transformers.

#чтивонаночь по быстрому

Text Embeddings by Weakly-Supervised Contrastive Pre-training
Кажется новая sentence SOTA от microsoft, идея в том чтобы собрать много грязных пар(Reddit, Stackexchange, wiki) где есть пара пост-коммент, статья-описание и всякое такое, а затем дотюнили на NLI/честной текстовой классификации.

В целом около SOTA на эмбед задачах, есть MT версии с поддержкой русского.

модель
статья

Читать полностью…

Love. Death. Transformers.

Да)) Почитаем пару твиттер-тредов, а потом в две руки запустим модель на лайтнинге, не переживай, никакого интима)

Читать полностью…

Love. Death. Transformers.

код 200
мы вместе

Читать полностью…

Love. Death. Transformers.

Я обновил рейтинг русскоязычных энкодеров предложений github.com/avidale/encodechka, по просьбам трудящихся (и благодаря помощи @dealerAI, нашедшего баг в моих расчетах и настойчиво о нем напоминавшего).

Напомню, что это бенчмарк из 8 задач на эмбеддинги предложений (и еще 2 дополнительные- на эмбеддинги токенов).
В каждой задаче эмбеддинги из модели берутся "как есть" (для BERT-подобных моделей я беру наилучший из двух: эмбеддинг первого токена либо средний эмбеддинг всех токенов), и применяются в качестве фичей для конечной задачи (косинусная близость, либо классификация с помощью логрега или knn).
Дальше я усредняю метрики качества по 8 основным задачам (они разные, но все между 0 и 1), и отмечаю модели, оптимально балансирующие это качество и размер либо скорость.

Что изменилось:
1) Некоторые скоры подвинулись вверх (но не очень сильно, в основном на 1-2%), благодаря исправленной опечатке в формуле усреднения эмбеддингов токенов.
2) Добавилось несколько новых моделей, включая:
- нового лидера Multilingual-E5-large, взявшего сразу 5 медалей в задачах семантической близости, анализа тональности, и классификации интентов;
- эмбеддинги от OpenAI text-embedding-ada-002, которые, несмотря на большую размерность, не особо себя проявили;
- symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli, ожидаемо (и не очень честно) победившую в NLI задаче;
- deepvk/deberta-v1-base, победившую в разряде "детекция токсичности" (aka "одноклассники");
- энкодер от ai-forever/FRED-T5-large, победивший в детекции неполиткорректных текстов.
3) Добавил в лидерборд столбец с размерностью модели, так что теперь например видно, что одинаково перформят 1536-мерные эмбеддинги от OpenAI и 384-мерные из MiniLM-L12.

Если вы хотели бы видеть в бенчмарке какие-нибудь ещё энкодеры – пишите, добавлю!

Читать полностью…

Love. Death. Transformers.

h=100 in 20years or faster

Читать полностью…

Love. Death. Transformers.

Как понять что пишет NLPшник старой закалки: falcon, alpaca, wizardlm как отдельные модели.

бтв жду horny wizard lm

Читать полностью…

Love. Death. Transformers.

😬

Читать полностью…

Love. Death. Transformers.

#чтивонаночь

Давно обещал разогнать про t2i, поэтому разбил текст на несколько частей.

почитать можно alexwortega/Yjub5vxYYPZ">тут

Читать полностью…

Love. Death. Transformers.

В последнее время, подсела на иглу адаптеров, поэтому сегодня хочу написать про подход AdaMix (2022), идея красивая, перетекла от MoE (MIXTURE-OF-EXPERTS), но со множеством своих доработок из побуждения экономии ресурсов (действительно, если мы имеем дело с PEFT методами, а о чем еще заботиться?)

В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных

Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0

Так какие для этого решения?🙂

1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.

Но как же понять, какой эксперт использовать на инференсе? Именно это решают следующие пункты

2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами

3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе

Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои 😮

🖥 код

Читать полностью…

Love. Death. Transformers.

У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает Diffusion в целом и classifier free guidence в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?

Читать полностью…

Love. Death. Transformers.

Авторы оригинальной статьи о LK99 выложили видео с леветирующим сверхпроводником

Читать полностью…

Love. Death. Transformers.

#чтивонаночь по быстрому
ToolLLM

Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.

Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).

По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(НЕОЖИДАННО) + добавили прикольный multi tool chain(когда модель последовательно ходит в разные инструменты)

код

Читать полностью…
Subscribe to a channel