Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted - каталог телеграмм

lovedeathtransformers | Unsorted

Subscribe to a channel

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

23 Jul 2023 17:58

#чтивонаночь длинное

Блог про токенайзеры

Благодоря покупке рекламы помимо обычно чтивананочь появились(пока не регулярные) блоги по разным темам, конкретно этот я тянул больше месяца, но он будет полезен для ознакомления с токенизаторами и в целом что есть внутри hf имплементации.

скоро выйдет погулять текст про новые llam_ы и sd_xl
alexwortega/EpS4-2xAwtX">блог

Читать полностью…

Love. Death. Transformers.

22 Jul 2023 17:23

Вау, оказывается есть ~~магазин~~ витрина коннекторов для LLM+ langchain/llama index.
Есть интеграции с Gmail/confluence/calendar и кучей источников данных!
GitHub
LlamaHub

Читать полностью…

Love. Death. Transformers.

20 Jul 2023 23:53

Втф а почему телеграмм теперь Инстаграм

Читать полностью…

Love. Death. Transformers.

20 Jul 2023 14:30

🔥 Совет на лето 2023 - углубитесь в изучение машинного обучения.

Если вы не хотите тратить месяцы и годы на бесполезные материалы, мы собрали для Вас кладезь полезных знаний в одной папке.

- Разбор вопросов с собеседований МО
- Machine learning
- Анализ данных
- Канал с вакансиями и фрилансом DS
- Базы данных для аналитика
и не только.

Сохраняйте себе, чтобы не потерять: /channel/addlist/2Ls-snqEeytkMDgy

Читать полностью…

Love. Death. Transformers.

19 Jul 2023 17:44

вроде генеративки научились генерировать руки, но почему такая зловещая долина?

Plot twist: это не генерация

Читать полностью…

Love. Death. Transformers.

19 Jul 2023 14:47

Будущее игр.

Уже сейчас музыка подстраивается под вас, тикток-инст-ютуб подкидывает супер релевантный контент, но этого кажется не достаточно.
Будущее развлечений - генеративные игры где все от текстур до механик, сценария, геймплея - сгенерированно, миры меняются на основе того что вы пишете и все это работает на банальном openai api + другие генераторы!

game

Читать полностью…

Love. Death. Transformers.

19 Jul 2023 10:24

Ура, пиратские версии llama на Hf, забираем и го учить новое!

7B
13B

Читать полностью…

Love. Death. Transformers.

18 Jul 2023 19:26

🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования

Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)

Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B

Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!

По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5

📄 Paper
📇 Blog
💻 Download Llama2

Читать полностью…

Love. Death. Transformers.

18 Jul 2023 11:43

~~Максимальное сжатие по вайсману?~~
Если кто то не знал, то gpu используются при обучении в лучшем случае на 50% от теоретического максимума, для того чтобы стать ближе к нему любят всякие страшные хаки - tensor/pipeline paralel, flash attention и прочие: а чо то у меня не работает.

Оригинальный флеш получал основное ускорение за счет простой идеи: мы используем поблочное умножение для Q,V + хранили экспоненты для вычисленных значений, что позволяло экономить на IO.
При этом еще вычисляют все слои внутри одного cuda kernel что экономит на IO + используют быстрый L2 L3 cache.

Второй flash attention ~~это почти алгоритм из центра наружу~~, авторы выкинули экспоненты и высчитаывают градиенты на слой по диагональным статистикам + только в конце каждой итерации умножения они скейлят градиенты(из block matmul)
+ вместо хранения сум экспонент они хранят только logsumexp;

красивое....

Читать полностью…

Love. Death. Transformers.

17 Jul 2023 18:44

#чтивонаночь по быстрому
RLTF: Reinforcement Learning from Unit Test Feedback
Ну короче, yet another RL paper, толльок тут используются Unit test signal, те код комплиться, выполняется, на выходе три вида ответа: Error, F ailure или Pass, решаем или нет и кормим фидбек + ревард дискретный и бьет модель по бошке за любые ошибки что позволяет не скатываться в низкий ревард ловушку.

ну и бонусом это все выдает SOTA на MBPP(ну типа prompt - code - unit test)

paper
код

Читать полностью…

Love. Death. Transformers.

16 Jul 2023 19:28

Программисты идут работать в банки

Читать полностью…

Love. Death. Transformers.

15 Jul 2023 12:46

Ждём когда как о RLhf будет o cfg из каждого утюга, тогда им реально будут заниматься, а не "а что ета, а зачем ета..."

Next steps: тонкий обучаемый адаптер для более правильного ранжирования по промпту

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 19:07

Чат, расскажите какими text2image API (обратите внимание API) вы пользуетесь, чего не хватает, для чего пользуетесь

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 09:23

#промо
Академия Data Science от Тинькофф!

Учитесь у лучших экспертов Тинькофф и других ИТ-компаний в современном кампусе в центре Москвы. Подойдет студентам технических вузов, начинающим ИТ-специалистам и всем, кто мечтает о карьере в Data Science.
Подробнее здесь: https://l.tinkoff.ru/master.ds.2023

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 00:16

Почему никто не рисует фигуры тех анализа для loss?
Loss опять хуй нарисовал?
Да.

Читать полностью…

Love. Death. Transformers.

22 Jul 2023 18:30

Релиз llama2-saiga от Ильи Гусева, на sbs 15% прирост относительно llama1!

Model

Читать полностью…

Love. Death. Transformers.

21 Jul 2023 11:24

#чтивонаночь
Meta-Transformer: A Unified Framework for Multimodal Learning

Помните китайские инструменты нож-молоток-плоскогубцы-уровень в одном? Китайцы выпустили meta Transformer - модель с пошернным между модальностями space и при этом с разными энкодерами и головами для разных модальностей.

По метрикам очевидно все плохо, но есть код и веса!
paper
code

Читать полностью…

Love. Death. Transformers.

20 Jul 2023 18:48

Вы русский nlpшник? Вам нужна модель под ft, но у saiga слишком низкая плотность токенов, rugpt 13b жирная?
Выход есть!
Siberian Fred это инструктивный файнтюн fredT5 на инструкции, он меньше бредит, неплохо решает text qa и неплохо zsшотиться. Но самое главное - он всего 1.7б параметров, те его можно деплоить практически на любые карты в ggml формате!

Link

Читать полностью…

Love. Death. Transformers.

20 Jul 2023 10:45

Сбер планирует gpt3.5 20 июля?
Выпускайте llama2 18 июля.

Читать полностью…

Love. Death. Transformers.

19 Jul 2023 14:57

Купились? На самом деле будет куча(уже полно) нейро стримовых шоу которые будут нарезаться на кеки и те в свою очередь будут циркулировать по сети.
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.

Стрим

Читать полностью…

Love. Death. Transformers.

19 Jul 2023 11:18

I believe in Kandinskiy supremacy

Читать полностью…

Love. Death. Transformers.

18 Jul 2023 19:36

how opensource feels in middle 2023:

я не выложил две модели с llama1 они уже устарели...

Читать полностью…

Love. Death. Transformers.

18 Jul 2023 17:17

история о том, как чуваки, применив наработки deepmind в сфере transfer learning, обучили CodeBert взяв за основу RoBERTa используя только адаптеры

Описанное выше на самом деле находится в этой статье, где авторы делятся опытом transfer learning с помощью адаптеров для создания мультимодальной модели (язык - код). А подводка следующая☕️:

Все наверняка уже слышали по 10050 раз, особенно в последнее время о том, что такое адаптер (2019). Но если вспомнить базовый механизм за счет которого все работает, то можно описать следующим образом: берем доп слой, вставляем где-то между слоями исходной модели, и обучаем, замораживая исходные веса. Это позволяет моделе узнавать новые задачи, при этом тратя меньше ресурсов при обучении.

В какой-то момент, изначально в CV, поняли. что можно обучить много адаптеров (каждый на определенную задачу), а потом использовать знания от всех и решать тем самым мульти-таск. Это конечно очень крутая идея, но имеет недостаток в виде забывчивости из-за разного веса каждого адаптера. Тогда приходят люди из deepmind и говорят о том, что вот есть некий подход AdapterFusion (2021), который направлен на то, чтобы решить эту проблему следующим образом в 2 стадии: сначала помимо параметров, обучаеммых в каждом из адаптеров, обучается и еще отдельный параметр, который учится запоминать, что за адаптер мы используем в данный момент, а на втором шаге мы учим с помощью неожиданно, но факт механизма внимания, комбинировать вместе все адаптеры. Собственно вся эта конструкция располагается между двумя residual connection

Итак, к чему мы вообще заговорили про комбинирование многих адаптеров вместе. Через некоторое непродолжительное время Deepmind пошли дальше и придумали подход MAD-X, способный за счет адаптеров не только реализовать cross-task модели, но и cross-lingual. Так как обычный pipeline тренировки (когда мы обучаем на новом языке модель с MLM, чтобы выучить язык) ведет опять же к забывчивости модели, ребята откапытвают свой подход FusionAdapter и модифицируют его еще и на обучаемость новым языкам. Теперь подход состоит уже из 3 частей. Adapter-L (адаптер языковой), который по расположению берет свою идею из предыдущей стать и располагает также после residual connection; Adapter-T, который идейно похож на Adapter-L, но располагается после нескольких языковых адаптеров и Invertible Adapters, который направлен на захват преобразований, специфичных для языка на уровне токенов. Идея такая: все эти адаптеры обучаются совместо, естл адаптер языка нового и языка, который уже был в модели, это касается и инфертированного адаптера. При инференсе мы можем отключать один из языков и подавать output от него в адаптер задач. Тем самым модель будет способна решать задачи на разных языках

Возвращаясь к тренировки СodeBert с помощью MAD-X. Они обучили Adapter-L на каждый из языков программирования, представленных в модели CodeBert и 2 задачи, используемые в модели на pretrain (Masked Language Modeling (MLM) – идея из оригинальной статьи BERT и Replaced Token Detection (RTD) – идея из оригинальной статьи ELECTRA). В итоге они получили весьма сравнительные результаты используя лишь адаптеры

🖥Репозиторий с библиотекой адаптеров
🖥Код экперементов чуваков

Читать полностью…

Love. Death. Transformers.

18 Jul 2023 08:30

🔥FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub

Читать полностью…

Love. Death. Transformers.

16 Jul 2023 22:02

Авторы шедеврума отпишитесь пожалуйста в личку @alexeyderden

Читать полностью…

Love. Death. Transformers.

15 Jul 2023 22:54

Новость одной строкой: ходят слухи, что META готовит релиз LLAMA-2, причём, с коммерческой лицензией на использование. И модель, конечно, будет умнее, дополнительно натренирована на коде (и как будто даже изображениях!).

Ждём всем опенсурс-сообществом!

(сори, вышло больше одной строки)

Источник

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 21:57

#чтивонаночь

Казалось бы, может ли без тюна, простым алгоритмом LLama7b побить PALM 540B на бенче LAMBAD где топят жирные модели?
Может если применить методы из диффузий, подробнее в сегодняшнем посте

alexwortega/4Th909YaSgg">читать сюда
arxiv

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 17:24

Иронично как сильно порнушные LORA адаптеры продвинули генерацию изображений, у людей была ПИЗДАТАЯ мотивация, оцените пальцы, а это ведь sd1.5 обычная.
~~Вообще удивительно как сильно порнушные text модели отстают от t2i, сразу чувствуется мотивации не хватает~~
С каждым днем все сильнее верю в то что модель которая побьет gpt4 будет страшным мержем LORA моделей с classifier free guidence

Читать полностью…

Love. Death. Transformers.

14 Jul 2023 08:39

Ссылка на очередную поучительно забавную историю про то как сео слегка поимел сотрудников(нет)

Где то в Лондоне в это время:

Читать полностью…

Love. Death. Transformers.

13 Jul 2023 20:20

Братан, да какой ты специалист по нейросетям? Ты все тот же токарь, оператор нейрогенерационного станка ЧПУ, графический фрезеровщик — весь в отца, работяга, заводская порода.

Запихнул болванку дата-сета, ввел параметры, нажал кнопку, ушел айкос курить да в чате с цеховыми пиздеть, вернулся — деталька выточилась уже. Перекинул ее в другой станок, подшлифовал, руками поправил где надо — красота. А вот и смена кончилась, криптополучка пришла, пошел с мужиками по зуму бухать.

Читать полностью…

Subscribe to a channel