Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted - каталог телеграмм

lovedeathtransformers | Unsorted

Subscribe to a channel

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

09 Feb 2024 20:53

I believe in ~~open source~~ fine-tune supremacy

Читать полностью…

Love. Death. Transformers.

09 Feb 2024 16:36

Let Your Graph Do the Talking: Encoding Structured Data for LLMs
[arXiv]

Что мы делаем в 2024? Правильно, засовываем всё, что плохо лежит 🗑, в большие языковые модели. У нас в команде плохо лежат графы, так что в нашей новой статье они отправляются напрямую в PaLM2. 👮‍♂️

Конечно, граф нужно как-то закодировать. У коллег была статья на ICLR'24 (или будет? конференция-то будет в мае), где граф трансформируют в текст простыми способами: как список вершин и рёбер. Вместо этого мы бахнули графовую нейросетку, которая трансформирует граф в набор токенов, которые кормятся LLMке. Поскольку нам хотелось полностью погрузиться в LLM-безумие, напрямую от задачи графовая сетка градиенты не получает – только через языковую модель. Назвали модель GraphToken. 👌

Поскольку мы работаем с графами, мы можем сгенерировать их все. На 8 вершинах существует 11117 связных графов, вот на них мы и тестировались. Тестсет – так уж на все точки пространства – чего мелочиться. ✨

В статье мы показываем, что GraphToken умудряется генерализоваться как in-distribution с 1000 тренировочных примеров, так и out-of-distribution – на новые задачи, очень слабо связанные с предыдущими.

P.S. в названии – отсылка к песне Aerosmith. 😎

Читать полностью…

Love. Death. Transformers.

09 Feb 2024 00:42

С gemeni ultra все хорошо, 99.9@32 на оболочке сетчатки глаза

Тред

Читать полностью…

Love. Death. Transformers.

08 Feb 2024 09:14

Grandmaster-Level Chess Without Search by deepmind

Yet another alpha* like paper -идея в том что давайте возьмем кучу партий, разметим их через Stockfish(шахматный движок на основе сетки для перевзвешивания + поиск по дереву ходов)
+ хитрые лоссы чтобы учиться на лучших стейтах и предсказывать дополнительно хорошесть хода.

Результататы конечно крутые, но вопросы есть(нахуя и почему gpt3.5)

paper

Читать полностью…

Love. Death. Transformers.

07 Feb 2024 16:42

почему все стали называть nccl никелем

Читать полностью…

Love. Death. Transformers.

07 Feb 2024 09:27

DeepSeek

Всегда найдется китайский бакалавр который сделает лучше

- учили на Fill in the middle и next token prediction
- дефолтный 32к токенайзер + ROPE + GQA(для 33B модели), а еще китайцы написали себе свой deepspeed, но я не разбирался чем он лучше блог
- По бенчам значимо лучше чем 3.5 и хуже чем gpt4

paper
models

Читать полностью…

Love. Death. Transformers.

06 Feb 2024 16:12

Мы открыли набор на весенний семестр Deep Learning School!

В этом семестре мы возвращаемся к привычному формату — запускаем сразу оба потока обучения:
- часть 1 (введение в DL + CV)
- часть 2 (NLP)
В этом семестре мы почти полностью обновили программу второй части, а также перезаписали несколько лекций и семинаров в первой. Подробную информацию об организации курса и программы обучения можно найти тут.
❗️Наша школа всегда была и остается бесплатной для всех. Но теперь для первой чати курса есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Обратите внимание, что для успешного прохождения второй части курса нужны знания из первой (основы DL и CV). Поэтому мы рекомендуем записываться на вторую часть после прохождения первой.

Регистрация продлится до 17 февраля. Старт обучения на первой части — 10 февраля, на второй — 17 февраля. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.

Ждем вас в чатике курса в новом семестре! =)

Читать полностью…

Love. Death. Transformers.

05 Feb 2024 21:41

Все хайпуют и я хайпану

Читать полностью…

Love. Death. Transformers.

05 Feb 2024 16:45

Nomic Embed, когда ты лучше Ada2, но ~~это~~ не ~~точно~~ всех.

Как говорили мои коллеги: почти любой топ-эмбеддер из паблика лучше, чем Ada2 на MTEB.

В общем вышли новые эмбеды, под заголовком "мы круче Ada2". Но хитрые авторы опустили тот факт, что хуже чем топ bge и e5 моделей.

Есть ли что-то интересное?
Для меня только датасет, как говорится оно про 90% успеха.

Лосс не удивил, типичный softmax contrastive, даже не siglip.

Репорт тут. Читал орал, почти везде стараются сравниться с mosaic-bert (который не про sentence representation) и тп, а также с text-davinci, те с ada семейством. Где есть е5 аккуратно не выделяют их преимущество, а жирно только эмбеддера авторов статьи.

Таблицы ниже приложу.

Читать полностью…

Love. Death. Transformers.

04 Feb 2024 14:28

Мы быстро, конечно, в SciFi попали:

За $159.99 теперь каждый может купить готовый набор для нейронного подключения живого таракана к чипу, чтобы, ну, побегать им с телефона
¯\_(ツ)_/¯

Покупать тут:
https://backyardbrains.com/products/roboroach

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 21:32

Лучшие ~~вайфу~~ модели - со смешанной генетикой. Что такое models merging?

Интересно к слову что будет с запретными темами и цензурой при мерже.

alexwortega/r6zha1uPaAS">teletype

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 15:20

Мы развели илью гусева на создание канала /channel/senior_augur!!!!

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 15:19

Компиляция нескольких постов про то, что читать про ML/NLP/LLM:

Обучающие материалы 🗒
- https://habr.com/ru/articles/774844/
- https://lena-voita.github.io/nlp_course.html
- https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
- https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
- https://huggingface.co/docs/transformers/perf_train_gpu_one

Блоги 🍿
- https://huggingface.co/blog/
- https://blog.eleuther.ai/
- https://lilianweng.github.io/
- https://oobabooga.github.io/blog/
- https://kipp.ly/
- https://mlu-explain.github.io/
- https://yaofu.notion.site/Yao-Fu-s-Blog-b536c3d6912149a395931f1e871370db

Прикладные курсы 👴
- https://github.com/yandexdataschool/nlp_course
- https://github.com/DanAnastasyev/DeepNLP-Course
(Я давно не проходил вообще никакие курсы, если есть что-то новое и хорошее - пишите!)

Каналы 🚫
- /channel/gonzo_ML
- /channel/izolenta_mebiusa
- /channel/tech_priestess
- /channel/rybolos_channel
- /channel/j_links
- /channel/lovedeathtransformers
- /channel/seeallochnaya
- /channel/doomgrad
- /channel/nadlskom
- /channel/dlinnlp
(Забыл добавить вас? Напишите в личку, список составлялся по тем каналам, что я сам читаю)

Чаты 😁
- /channel/betterdatacommunity
- /channel/natural_language_processing
- /channel/LLM_RNN_RWKV
- /channel/ldt_chat

Основные статьи 😘
- Word2Vec: Mikolov et al., Efficient Estimation of Word Representations in Vector Space https://arxiv.org/pdf/1301.3781.pdf
- FastText: Bojanowski et al., Enriching Word Vectors with Subword Information https://arxiv.org/pdf/1607.04606.pdf
- Attention: Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473
- Transformers: Vaswani et al., Attention Is All You Need https://arxiv.org/abs/1706.03762
- BERT: Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.0480
- GPT-2, Radford et al., Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- GPT-3, Brown et al, Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165
- LaBSE, Feng et al., Language-agnostic BERT Sentence Embedding https://arxiv.org/abs/2007.01852
- CLIP, Radford et al., Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020
- RoPE, Su et al., RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864
- LoRA, Hu et al., LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685
- InstructGPT, Ouyang et al., Training language models to follow instructions with human feedback https://arxiv.org/abs/2203.02155
- Scaling laws, Hoffmann et al., Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.15556
- FlashAttention, Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness https://arxiv.org/abs/2205.14135
- NLLB, NLLB team, No Language Left Behind: Scaling Human-Centered Machine Translation https://arxiv.org/abs/2207.04672
- Q8, Dettmers et al., LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale https://arxiv.org/abs/2208.07339
- Self-instruct, Wang et al., Self-Instruct: Aligning Language Models with Self-Generated Instructions https://arxiv.org/abs/2212.10560
- Alpaca, Taori et al., Alpaca: A Strong, Replicable Instruction-Following Model https://crfm.stanford.edu/2023/03/13/alpaca.html
- LLaMA, Touvron, et al., LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 10:15

ладно оно еще более емкое на мемы чем я думал

Читать полностью…

Love. Death. Transformers.

02 Feb 2024 21:02

THE A.I.//И.И.
A little up-to-date agenda wouldn't hurt. All coincidences with historical characters are, as usual, accidental. The 7 deadly sins are also included///Немного актуальной повестки не помешает пожалуй. Все совпадения с историческими персонажами, как обычно, случайны. 7 смертных грехов также прилагаются

Читать полностью…

Love. Death. Transformers.

09 Feb 2024 20:52

Кстати, прямо сейчас проходит

Large Language Model Capture-the-Flag (LLM CTF) Competition @ SaTML 2024

Как я понял из описания продлится до 3 марта.
Кнопочка регистрации команды активна

https://ctf.spylab.ai/

Читать полностью…

Love. Death. Transformers.

09 Feb 2024 14:52

кто то: в dl cложная математика
так же математика в DL:

Читать полностью…

Love. Death. Transformers.

08 Feb 2024 19:40

Ежик в тумане, 2024

Stable Video Diffusion очень неплохо имитирует поведение природных явлений - воды, огня, тумана, облаков. а также вполне четко считывает объем и улавливает предполагаемую динамику в кадре: без особого управления хорошо двигает камеру обычно в 2 случаях из 5

поэтому пайплайн чаще всего выглядит так: закинул картинку и жмешь 2-3 раза на генерацию, выбираешь лучший вариант

шевелить объекты не очень любит но иногда умеет. главное не переборщить с таким оживлением, иначе объекты ломаются

и к сожалению главное ограничение - всего 25 кадров за раз

картинки - mj
анимация - SVD 1.1
музыка - suno.ai

@тоже_моушн

Читать полностью…

Love. Death. Transformers.

07 Feb 2024 16:50

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

Читать полностью…

Love. Death. Transformers.

07 Feb 2024 12:03

Релизы в 2024 очень странные

Х

Читать полностью…

Love. Death. Transformers.

06 Feb 2024 21:46

Привет! Нашел твою статью на openreview — это не будет работать) Вечером что делаешь?

Читать полностью…

Love. Death. Transformers.

06 Feb 2024 02:07

Тут сегодня статья одна вышла: https://arxiv.org/pdf/2402.01032.pdf

Авторы берут несколько синтетических задач на копирование и пытаются показать, что замены трансформеров на SSM (типа Мамбы) плохо копируют большие куски последовательностей.

Первая группа экспериментов:

Настройки: Учим модели с нуля, с одинаковым количеством параметров, токены = алфавит + BOS, EOS и COPY. Случайно выбираем длину строки, потом на каждую позицию в строке выбираем случайный символ. Таким образом получаем случайный набор строк.

- Эксп1: Учим модель копировать строки меньше 300 символов.
Наблюдение: SSM учатся дольше трансформеров, но в итоге выучиваются идеально исполнять задачу.

- Эксп2: Учим модель копировать строки меньше 50 символов, предсказываем на строках бОльшей длины.
Наблюдение: Всё, кроме HAlibi-кодированных трансформеров, не вытягивает строки больше 200 символов. NoPE и Alibi-кодированные трансформеры вытягивают 100-150, SSM и RoPE-кодированные трансформеры - не больше 55.

- Эксп3: <данные удалены за ненадобностью: там про то, как именно копируют трансформеры>

- Эксп4: Учим модель продолжать копированием уже встретившиеся n-граммы в том же режиме, что и в эксперименте 2. То есть вход <abcdef>, запрос <cd>, выход: <ef>. И строки в обучении меньше 30 символов.
Наблюдение: SSM сильно проигрывают трансформерам. На строках больше 30 символов, конечно.

- Эксп5: Как эксперимент 4, но "запрос" подаём перед основной последовательностью, а не после. То есть запрос и вход меняются местами.
Наблюдение: SSM сильно выигрывают у трансформеров.

Вторая группа экспериментов:

Настройки: берём готовые предобученные модели, Mamba и Pythia.

- Эксп1: Промпт = 2 копии одной и той же строки, плюс первое слово третьей копии. Задача = закончить третью копию. Строки выбираются случайно из C4, большого корпуса реальных текстов
Наблюдение: Мамба справляется гораздо хуже Пифии на любых длинах

- Эксп2: Режим телефонной книги: есть набор имён и телефонов для этих имён. Подаём L имён в промпт, пару few-shot примеров, и просим телефон для случайного имени из списка.
Наблюдение: Мамба справляется гораздо хуже Пифии на любых длинах

- Эксп3: Настоящий SQuAD, 1-shot для того же текста. Ещё делаем разбивку по длине текстов.
Наблюдение: Мамба справляется гораздо хуже Пифии на длинных текстах

Мои комментарии:
- Воспроизвел кусочек первого экперимента второй группы, Мамба действительно не справляется. Добавила лишнее "клеток, связанных внутри".
- Эксперименты первой группы показывают, что обучение Мамба не обобщается по длине. Что в целом так себе открытие, трансформеры до недавних позиционных эмбеддингов тоже не обобщались.
- Эксперименты второй группы - это более серьёзный удар, но и сравнение нечестное, обучающие выборки у моделей всё-таки были разные.
Короче рано хоронить SSM.

Видео на тему: https://youtu.be/F1yYf9xdKEA?si=YzLKALHzyyXK28W0&t=52

Читать полностью…

Love. Death. Transformers.

05 Feb 2024 19:26

Привет, я твой одногруппник, помогал тебе сегодня с задачей по матану. Мне кажется я люблю тебя

Читать полностью…

Love. Death. Transformers.

04 Feb 2024 16:14

SeGMoe - Segmind Mixture of Diffusion Experts

Чуваки смешивают чекпоинты sd1.5 по аналогии с mixture of clowns и у них очень неплохо получается.

Гит

Читать полностью…

Love. Death. Transformers.

04 Feb 2024 11:18

Llama2d: 2D Positional Embeddings for Webpage Structural Understanding

Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.

Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.

Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.

Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.

@ai_newz

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 18:07

Не проклятый тацмлайн. Точно вам говорю.

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 15:19

Про локальные языковые модели для относительно неподготовленной аудитории:
Видео: https://youtu.be/KXBRGkZTX1U?si=CyVKSUavsSnZfffR&t=241
Презентация: http://tinyurl.com/gusevlocal
Подкаст: https://mlpodcast.mave.digital/ep-55

Про древнюю генерацию стихов:
Видео: https://www.youtube.com/watch?v=wTN-qKPu4c0
Статья на Хабре: https://habr.com/ru/articles/334046/

Про Сайгу:
Видео: https://www.youtube.com/watch?v=YqKCk8_dNpQ
Презентация: http://tinyurl.com/gusevsaiga
Статья на Хабре: https://habr.com/ru/articles/759386/

Про не-трансформерные модели:
Видео: https://www.youtube.com/watch?v=C65JbhTi-O4
Презентация: https://tinyurl.com/gusevlrnn

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 15:14

Тут тихо выложили ft SDV xt, теперь больше кадров и должно быть больше движения.

модель лежит тут

Читать полностью…

Love. Death. Transformers.

03 Feb 2024 00:31

Spoiler: can(t).

Читать полностью…

Love. Death. Transformers.

02 Feb 2024 15:32

Новые твиты маска? Эм нуу.....

Читать полностью…

Subscribe to a channel