lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Вы думали Тиктоки странные? Позвольте представить вам дискорд-видео

Тут больше:
https://www.reddit.com/r/discordVideos/top/?t=year

Читать полностью…

Love. Death. Transformers.

Абсолютно нелегальная miqu 70b теперь с новой квантизацией!

Ссылка

Читать полностью…

Love. Death. Transformers.

Тут вышло геймпленое демо индики: игра про монашку в стимпанковой Российской империи 19века, с физическими загадками и демоническими трипами.

видео

Читать полностью…

Love. Death. Transformers.

https://www.goody2.ai/goody2-modelcard.pdf

Читать полностью…

Love. Death. Transformers.

Кстати, прямо сейчас проходит

Large Language Model Capture-the-Flag (LLM CTF) Competition @ SaTML 2024

Как я понял из описания продлится до 3 марта.
Кнопочка регистрации команды активна

https://ctf.spylab.ai/

Читать полностью…

Love. Death. Transformers.

кто то: в dl cложная математика
так же математика в DL:

Читать полностью…

Love. Death. Transformers.

Ежик в тумане, 2024

Stable Video Diffusion очень неплохо имитирует поведение природных явлений - воды, огня, тумана, облаков. а также вполне четко считывает объем и улавливает предполагаемую динамику в кадре: без особого управления хорошо двигает камеру обычно в 2 случаях из 5

поэтому пайплайн чаще всего выглядит так: закинул картинку и жмешь 2-3 раза на генерацию, выбираешь лучший вариант

шевелить объекты не очень любит но иногда умеет. главное не переборщить с таким оживлением, иначе объекты ломаются

и к сожалению главное ограничение - всего 25 кадров за раз

картинки - mj
анимация - SVD 1.1
музыка - suno.ai

@тоже_моушн

Читать полностью…

Love. Death. Transformers.

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

Читать полностью…

Love. Death. Transformers.

Релизы в 2024 очень странные

Х

Читать полностью…

Love. Death. Transformers.

Привет! Нашел твою статью на openreview — это не будет работать) Вечером что делаешь?

Читать полностью…

Love. Death. Transformers.

Тут сегодня статья одна вышла: https://arxiv.org/pdf/2402.01032.pdf

Авторы берут несколько синтетических задач на копирование и пытаются показать, что замены трансформеров на SSM (типа Мамбы) плохо копируют большие куски последовательностей.

Первая группа экспериментов:

Настройки: Учим модели с нуля, с одинаковым количеством параметров, токены = алфавит + BOS, EOS и COPY. Случайно выбираем длину строки, потом на каждую позицию в строке выбираем случайный символ. Таким образом получаем случайный набор строк.

- Эксп1: Учим модель копировать строки меньше 300 символов.
Наблюдение: SSM учатся дольше трансформеров, но в итоге выучиваются идеально исполнять задачу.

- Эксп2: Учим модель копировать строки меньше 50 символов, предсказываем на строках бОльшей длины.
Наблюдение: Всё, кроме HAlibi-кодированных трансформеров, не вытягивает строки больше 200 символов. NoPE и Alibi-кодированные трансформеры вытягивают 100-150, SSM и RoPE-кодированные трансформеры - не больше 55.

- Эксп3: <данные удалены за ненадобностью: там про то, как именно копируют трансформеры>

- Эксп4: Учим модель продолжать копированием уже встретившиеся n-граммы в том же режиме, что и в эксперименте 2. То есть вход <abcdef>, запрос <cd>, выход: <ef>. И строки в обучении меньше 30 символов.
Наблюдение: SSM сильно проигрывают трансформерам. На строках больше 30 символов, конечно.

- Эксп5: Как эксперимент 4, но "запрос" подаём перед основной последовательностью, а не после. То есть запрос и вход меняются местами.
Наблюдение: SSM сильно выигрывают у трансформеров.

Вторая группа экспериментов:

Настройки: берём готовые предобученные модели, Mamba и Pythia.

- Эксп1: Промпт = 2 копии одной и той же строки, плюс первое слово третьей копии. Задача = закончить третью копию. Строки выбираются случайно из C4, большого корпуса реальных текстов
Наблюдение: Мамба справляется гораздо хуже Пифии на любых длинах

- Эксп2: Режим телефонной книги: есть набор имён и телефонов для этих имён. Подаём L имён в промпт, пару few-shot примеров, и просим телефон для случайного имени из списка.
Наблюдение: Мамба справляется гораздо хуже Пифии на любых длинах

- Эксп3: Настоящий SQuAD, 1-shot для того же текста. Ещё делаем разбивку по длине текстов.
Наблюдение: Мамба справляется гораздо хуже Пифии на длинных текстах

Мои комментарии:
- Воспроизвел кусочек первого экперимента второй группы, Мамба действительно не справляется. Добавила лишнее "клеток, связанных внутри".
- Эксперименты первой группы показывают, что обучение Мамба не обобщается по длине. Что в целом так себе открытие, трансформеры до недавних позиционных эмбеддингов тоже не обобщались.
- Эксперименты второй группы - это более серьёзный удар, но и сравнение нечестное, обучающие выборки у моделей всё-таки были разные.
Короче рано хоронить SSM.

Видео на тему: https://youtu.be/F1yYf9xdKEA?si=YzLKALHzyyXK28W0&amp;t=52

Читать полностью…

Love. Death. Transformers.

Привет, я твой одногруппник, помогал тебе сегодня с задачей по матану. Мне кажется я люблю тебя

Читать полностью…

Love. Death. Transformers.

SeGMoe - Segmind Mixture of Diffusion Experts

Чуваки смешивают чекпоинты sd1.5 по аналогии с mixture of clowns и у них очень неплохо получается.


Гит

Читать полностью…

Love. Death. Transformers.

Llama2d: 2D Positional Embeddings for Webpage Structural Understanding

Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.

Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.

Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.

Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.

@ai_newz

Читать полностью…

Love. Death. Transformers.

Не проклятый тацмлайн. Точно вам говорю.

Читать полностью…

Love. Death. Transformers.

Молодая семья выгуливает песика, так мило 🫶

Читать полностью…

Love. Death. Transformers.

- Высшее образование нужно чтобы получать 10k USD за месяц, а не за ночь
- экономика у тебя ебаная если честно

Читать полностью…

Love. Death. Transformers.

-- Господа, давайте построим agi за пять лет и 7Т usd
-- Да что вы, поручик, у нас таких денег нет.
Поручик, задумчиво:
-- ну тогда хотя бы Ai waifu ?

Я один замечаю как растут эстимейты? В прошлый раз было 5 лет до agi, в этот раз стало 7Т USD и построить фабы по всей планете ...

Читать полностью…

Love. Death. Transformers.

I believe in open source fine-tune supremacy

Читать полностью…

Love. Death. Transformers.

Let Your Graph Do the Talking: Encoding Structured Data for LLMs
[arXiv]

Что мы делаем в 2024? Правильно, засовываем всё, что плохо лежит 🗑, в большие языковые модели. У нас в команде плохо лежат графы, так что в нашей новой статье они отправляются напрямую в PaLM2. 👮‍♂️

Конечно, граф нужно как-то закодировать. У коллег была статья на ICLR'24 (или будет? конференция-то будет в мае), где граф трансформируют в текст простыми способами: как список вершин и рёбер. Вместо этого мы бахнули графовую нейросетку, которая трансформирует граф в набор токенов, которые кормятся LLMке. Поскольку нам хотелось полностью погрузиться в LLM-безумие, напрямую от задачи графовая сетка градиенты не получает – только через языковую модель. Назвали модель GraphToken. 👌

Поскольку мы работаем с графами, мы можем сгенерировать их все. На 8 вершинах существует 11117 связных графов, вот на них мы и тестировались. Тестсет – так уж на все точки пространства – чего мелочиться.

В статье мы показываем, что GraphToken умудряется генерализоваться как in-distribution с 1000 тренировочных примеров, так и out-of-distribution – на новые задачи, очень слабо связанные с предыдущими.

P.S. в названии – отсылка к песне Aerosmith. 😎

Читать полностью…

Love. Death. Transformers.

С gemeni ultra все хорошо, 99.9@32 на оболочке сетчатки глаза

Тред

Читать полностью…

Love. Death. Transformers.

Grandmaster-Level Chess Without Search by deepmind

Yet another alpha* like paper -идея в том что давайте возьмем кучу партий, разметим их через Stockfish(шахматный движок на основе сетки для перевзвешивания + поиск по дереву ходов)
+ хитрые лоссы чтобы учиться на лучших стейтах и предсказывать дополнительно хорошесть хода.

Результататы конечно крутые, но вопросы есть(нахуя и почему gpt3.5)

paper

Читать полностью…

Love. Death. Transformers.

почему все стали называть nccl никелем

Читать полностью…

Love. Death. Transformers.

DeepSeek

Всегда найдется китайский бакалавр который сделает лучше


- учили на Fill in the middle и next token prediction
- дефолтный 32к токенайзер + ROPE + GQA(для 33B модели), а еще китайцы написали себе свой deepspeed, но я не разбирался чем он лучше блог
- По бенчам значимо лучше чем 3.5 и хуже чем gpt4

paper
models

Читать полностью…

Love. Death. Transformers.

Мы открыли набор на весенний семестр Deep Learning School!

В этом семестре мы возвращаемся к привычному формату — запускаем сразу оба потока обучения:
- часть 1 (введение в DL + CV)
- часть 2 (NLP)
В этом семестре мы почти полностью обновили программу второй части, а также перезаписали несколько лекций и семинаров в первой. Подробную информацию об организации курса и программы обучения можно найти тут.
❗️Наша школа всегда была и остается бесплатной для всех. Но теперь для первой чати курса есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Обратите внимание, что для успешного прохождения второй части курса нужны знания из первой (основы DL и CV). Поэтому мы рекомендуем записываться на вторую часть после прохождения первой.

Регистрация продлится до 17 февраля. Старт обучения на первой части — 10 февраля, на второй — 17 февраля. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.

Ждем вас в чатике курса в новом семестре! =)

Читать полностью…

Love. Death. Transformers.

Все хайпуют и я хайпану

Читать полностью…

Love. Death. Transformers.

Nomic Embed, когда ты лучше Ada2, но это не точно всех.

Как говорили мои коллеги: почти любой топ-эмбеддер из паблика лучше, чем Ada2 на MTEB.

В общем вышли новые эмбеды, под заголовком "мы круче Ada2". Но хитрые авторы опустили тот факт, что хуже чем топ bge и e5 моделей.

Есть ли что-то интересное?
Для меня только датасет, как говорится оно про 90% успеха.

Лосс не удивил, типичный softmax contrastive, даже не siglip.

Репорт тут. Читал орал, почти везде стараются сравниться с mosaic-bert (который не про sentence representation) и тп, а также с text-davinci, те с ada семейством. Где есть е5 аккуратно не выделяют их преимущество, а жирно только эмбеддера авторов статьи.


Таблицы ниже приложу.

Читать полностью…

Love. Death. Transformers.

Мы быстро, конечно, в SciFi попали:

За $159.99 теперь каждый может купить готовый набор для нейронного подключения живого таракана к чипу, чтобы, ну, побегать им с телефона
¯\_(ツ)_/¯

Покупать тут:
https://backyardbrains.com/products/roboroach

Читать полностью…

Love. Death. Transformers.

Лучшие вайфу модели - со смешанной генетикой. Что такое models merging? 


Интересно к слову что будет с запретными темами и цензурой при мерже.

alexwortega/r6zha1uPaAS">teletype

Читать полностью…

Love. Death. Transformers.

Мы развели илью гусева на создание канала /channel/senior_augur!!!!

Читать полностью…
Subscribe to a channel