lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

C4AI Command-R

- 35 В
- 128к контентекста
- alignment на tool, rag usage(!)
- русский в претрене
- лицензия под что угодно

Бенчей нет

Карточка на хф
Playground умеет в chat with doc и web search из коробки

Читать полностью…

Love. Death. Transformers.

если вам интересны точные цифры

я не ебу почему это работает и почему на тех или иных бенчах те или иные числа

анекдот вспомнился: /channel/lovedeathtransformers/6849

Читать полностью…

Love. Death. Transformers.

ELLA: Equip Diffusion Models with LLM for
Enhanced Semantic Alignment


Идея:
- CLIP как эмбедер не очень, давайте добавим в исходных Unet от sd1.5/xl слои которые будем обучать на эмбедингах из LLM, тем самым мы не потратим миллион денег на компьют, но начнем рисовать текст, понимать промпты и генерировать как большая модель.

site
code(выйдет попозже погулять)

Читать полностью…

Love. Death. Transformers.

RUNorm и char level number tokenization

1. Немного о RUNorm

Сейчас помимо RUAccent, я начал заниматься проектом RUNorm. Данная система должна нормализовывать текст перед акцентуацией и собственно синтезом речи.
Нормализацию текстов можно подразделить на следующие подзадачи:
1. Нормализация сокращений (1990 г. -> 1990 год, г. Москва -> город. Москва)
2. Нормализация аббревиатур (ПТСР -> пэ тэ эс эр)
3. Нормализация английских слов (Microsoft -> майкрософт)
4. Нормализация чисел (в 2009 -> в две тысячи девятом)

Нормализация сокращений уже работает довольно неплохо:

:> Моя зп. всего 15 тыс. руб.
>>> Моя зарплата всего пятнадцать тысяч рублей

:> Мой адрес : г. Москва, р-н Бутово, д. 12, кв. 20
>>> Мой адрес город Москва, район Бутово, дом двенадцать, квартира двадцать

:> Я родился в 1900 г.
>>> Я родился в 1900 году.

Текущий пайплайн сейчас состоит из двух моделей - ruT5-base, bert на 3м параметров и некоторых правил взятых отсюда.

2. Как посимвольная токенизация цифр должна помочь в нормализации?

Эксперимент с решением задачи "в лоб" показал, что модель часто галлюцинирует и путает некоторые числа.
Пример таких галлюцинаций:

:> Конец света будет в 2045 г.
>>> Конец света будет в тысяча сорок пятом году.

:> В 1987 г. произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — 22,6 %
>>> В тысяча девятьсот семьдесят седьмом году произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — двадцать два целых и шесть десятых процента.

Возможное решение подобных проблем - правильная токенизация чисел.

Стандартный токенизатор модели ruT5-base работает примерно так:
:> tokenizer_orig.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁12', '.09.', '1923']

Новый токенизатор:
:> tokenizer.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁1', '2', '.', '0', '9', '.', '1', '9', '2', '3']

Доработка токенизатора очень простая, все токены являющиеся числами и длиной более 1 символа (без учета пунктуации), были заменены на "<garbage>".

Подробнее можно ознакомиться в данном ноутбуке

Для теста полученной модели была выбрана задача решения арифметических задач, т.к. датасет был под рукой и было можно обучить в короткие сроки.

По результатам тестирования были получены следующие метрики:

Arith acc digit5_ft: 0.586286056492664
Arith acc rut5_ft: 0.2418904082243737
P.S. Все тесты проводились без сэмплинга

Модель с модифицированным токенизатором ушла вперед с огромным отрывом.

Читать полностью…

Love. Death. Transformers.

Проект Open Language Data Initiative, про который я рассказывал недавно, заведует не только тестовым датасетом FLORES+, но и обучающим датасетом NLLB-seed.
Это 6К предложений из английской Википедии на разнообразные темы, часто на какую-то сложную научную тематику. Мои коллеги в своё время организовали перевод этого датасета на 39 малоресурсных языков, и показали, что включение этих текстов в обучающий датасет для модели-переводчика значительно улучшает её качество.

Сейчас проект oldi.org принимает переводы этого датасета и на другие языки тоже. Но проблема в том, что кроме английского, этот датасет сейчас существует только на редких языках, переводить с которых будет ещё сложнее чем с английского (хотя для переводов на тюркские языки, наверное, можно подглядывать в крымскотатарскую версию).

Чтобы решить эту проблему, я сделал бота @crowd_translate_bot для сбора и проверки человеческих переводов* с английского на русский (с тем, чтобы потом с русского было проще переводить на другие языки нашего региона). Будет здорово, если воспользуетесь этим ботом и поучаствуете в коллективном переводе датасета 🙃

* Хотя многие модели уже очень хорошо переводят между английским и русским, важно собирать именно человеческие переводы, потому что это всё-таки чуть надёжнее, и потому, что если собрать переводы от нескольких людей, они будут разнообразнее по стилю, чем машинно переведёные.

Нас тут 2К в этом чате, и если каждый третий из нас переведёт по 10 предложений (и проверит где-то по 25, включая намайненные мной возможные переводы из Википедии и двойную проверку переводов других людей), то перевод NLLB-Seed на русский будет собран, и можно будет переходить к более интересным языкам.

Читать полностью…

Love. Death. Transformers.

Orca-Math: Unlocking the potential of SLMs in Grade School Math

Оказывается если затюнить модель на датасет очень похожий на test set, то модель будет лучше работать на test set. Данные в свою очередь надистилировали из gpt4 turbo.


Data
Папир

Читать полностью…

Love. Death. Transformers.

У меня есть несколько значительных апдейтов касательно AQLM:

Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.

Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)

I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)

Читать полностью…

Love. Death. Transformers.

Возможно в текущем виде lmsys уже недостаточен, субъективно claud3 > gpt4 turbo > gpt4

Читать полностью…

Love. Death. Transformers.

проблема разнообразия ответов

если вы хотите косплеить дипмайнд и решать задачу LLMкой, но в стиле монтекарло, то вы упираетесь в одну простую проблему - количество уникальных адекватных вариантов которые генерит LMка на один и тот же запрос лежит в диапазоне от 10(для DPO) до 1000 (для отдельных aligment чекпоинтов).

и эта проблема будет вас приследовать вне зависимости от того насколько "хороша" ваша модель, такой юзкейс не распространен вне alpha* like задач

Читать полностью…

Love. Death. Transformers.

Принес вам реальные метрики Claude 3 vs GPT-4

Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.

А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.

Читать полностью…

Love. Death. Transformers.

у нас есть эффективные архитектуры дома

эффективные архитектуры дома:


тут тихо релизнулась папира sd3, линк скинул @seeallochnaya

Читать полностью…

Love. Death. Transformers.

Релиз claudе3

- сота с отрывом 0.04 пункта по mmlu
- в целом почти по всем бенчам дотюнились до gpt4

Ссылка

Читать полностью…

Love. Death. Transformers.

stop doing world models

Читать полностью…

Love. Death. Transformers.

(краткий пересказ введения к большой книжке Лейнстера "Entropy and diversity: The axiomatic approach" 2022)


Биоразнообразие кажется интуитивным понятием: много разных видов, чем их число больше, тем выше степень биоразнообразия. Но как быть с количественной мерой? Допустим, есть два сообщества A и B. С одной точки зрения, важно максимальное число представленных видов и не важно, насколько они распространены. С другой – важны только распространенные виды и их вклад. В зависимости от точки зрения, группа A или группа B будут считаться более разнообразными.
На самом деле, эти позиции – два противоположных конца континуального семейства однопараметрических мер биоразнообразия {D_q} для q in [0, infinity). Чем меньше значение q, тем больший вклад в биоразнообразие вносят редкие и малочисленные виды и наоборот.

Понятие биоразнообразия тесно связано с энтропией и фактически Шенноновская энтропия – это логарифм меры биоразнообразия D_1. Или, например, меры биоразнообразия D_q, известные в экологии как числа Хилла (Hill numbers), представляют собой экспоненты энтропии Реньи. Лейнстер доказывает, что числа Хилла – единственная мера биоразнообразия, обладающая natural properties в категорном смысле.

Кажется логичным, что помимо числа собственно представителей в сообществе, необходимо учитывать и их попарное подобие или генетическое родство. Существуют меры биоразнообразия, которые учитывают и это. Однако все они сводятся к мерам, связанным с энтропией Реньи, что также доказывается Лейнстером.

Современное животноводство активно использует антибиотики в производстве, порой неаккуратно, что приводит к появлению резистентной микрофлоры у домашнего скота. Высказывался ряд опасений, что появление таких резистентных бактерий может повлечь за собой эпидемии и среди людей, но Mather et al. показали, используя меры diversity для сравнения бактериальных семейств живущих с разными видами рядом, что резистентные Salmonella взятые у животных, вряд ли являются причиной резистентности у Salmonella живущих с человеком

Читать полностью…

Love. Death. Transformers.

А, те в рамках процесса получится вытащит инфу о гпт4, умно😬

Читать полностью…

Love. Death. Transformers.

Наконец доехал из перевода Veles2.5 - переведенный на русский Hermes2.5 через gpt3.5

Вероятно доедет за несколько недель вихрь-велес

Датасет для русского

Читать полностью…

Love. Death. Transformers.

Однажды я сидел в ереване, кушал фалафель с кебабом и думал - а почему мы можем стакать модели(копировать блоки друг за другом), но не можем урезать блоки? ну те что нам мешает взять и оставить из 30 блоков модели например 20? А почему не 10?

Ну я пришел домой, обрезал мистраль в 10 блоков из 30(модель стала 2B) и .... это полетело! НУ те бенчи просели cильно, но не в рандом!!

(в данном контексте 100% это 45 по ммлу)

А потом кто то из подписчиков скинул работу ShortGpt - логика примерно такая же, получается даже неплохо.
paper

smallstral

Читать полностью…

Love. Death. Transformers.

🧦 Удобный датасет для сегментации одежды на HF 🧦

Я взяла за основу IMaterialist — профильтровала и адаптировала его под задачу сегментации, решив ряд сложностей:

1. На фотках присутствуют несколько людей, иногда одежда размечена только у одного
2. Много лишних деталей. Так, например, если класс "карманы" который относится и к карманам на куртке, и к карманам на юбке
3. Нереально большое число классов распознавания, которое на практике не особо нужно
4. К сожалению, в оригинальном датасете присутствуют ошибки разметки. Я постаралась также их уменьшить на постпроцессинге

Что я сделала:
1. Убрала фотки где присутствует человек с неразмеченной одеждой
2. Постаралась максимально раскидать карманы по ближайшим классам, чтобы они были частью кофты/штанов. Оставила 8 самых главных классов ('background', 'upperbody', 'upperbody_up', 'lowerbody', 'wholebody', 'wholebody_up', 'shoes', 'accesories')
3. Перепроцесснула сложный csv в удобный формат с простым классом датасета: он берет данные из папки с исходными фотками и из папки с масками в формате .npy

На 3.5k подписчиков выложу код
А как вы развлекаетесь на выходных? 😄

Читать полностью…

Love. Death. Transformers.

Мне нравится

Ссылка

Читать полностью…

Love. Death. Transformers.

Cледуй за белым кроликом - WhiteRabbitNeo

- это сетка орентированна на киберсеков и она не плохая для проги
- она умеет генерить ответы с json, вызывать тулы и прочее
- сходу пишет код с многопоточностью(приятно)
- неплохо пишет DL код
Она и правда классная!


hf org
site

Читать полностью…

Love. Death. Transformers.

ЙОУ, скучали? Я сильно. Во-первых, всех причастных, поздравляю с праздником. Для меня этот праздник имеет теплую атмосферу и ассоциацию с весенним настроением 🥰

Теперь о главном🤓

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

Рекомендашки заполонили мою жизнь уже почти полгода как, а особенно интересно учитывать целостно контент из всех модальностей сразу. И вот пока меня не было в сети тг, вышла офигенная статья, как раз по теме, которой я занимаюсь. Поговорим о том, как в 24 году построить рекомендашку, которая учитывает текст

Базово: есть разные подходы😬

💛Основной: давайте возьмем айдишники товаров и построим сиквенсы новых рекомендаций на основе истории.
💛Также мы можем применять 2 башни моделей (dssm), чтобы точнее использовать характеристики еще и персональные. Одна голова товаров, а другая пользователей.
💛Окей, но что делать, чтобы учитывать еще и текст? Все просто, давайте получать эмбединги и внедрять в обработку как и раньше. Тут на ум приходят уже все многочисленные подходы в названии которых содержится “BERT”

Так вот, в чем отличие именно нового подхода?

Смотрим картинку в приложении и распутываем в голове последовательности всех блоков

😎текстовый контент может выходить за 5к токенов. Поэтому, как уже и принято в подобных архитектурах, мы кодируем разные части историй взаимодействий отдельно, а потом объединяем. В этой статье авторы еще и придумали считать sparse attention, так как обычно в рекомендательных системах особо остро стоит потребность в быстрой обработке, тут мы хотя бы можем сократить сложность вычислений.
😎решаем проблему холодного старта с помощью формирования портрета с помощью LLM (эх, жаль, что такие гениальные идеи приходят одновременно многим людям, круто что авторы уже реализовали это в своем подходе первыми)
😎кодируем каждый сеанс пользователя отдельно, чтобы обучить codebook внимания и составлять общую историю на late fusion. За это респект. Опять же высоким RPS подход передает привет
😎на выходе используем NCE loss

Какие минусы увидела, пока читала статью (субъективно мое мнение):

😭 прошаревшись в том, что для рекомендательных систем необходима высокая скорость вычисления, я не нашла в статье ни одного упоминания скорости помимо оптимизаций внимания, что меня пока расстраивает
😭 я не нашла хоть какой-нибудь репозиторий с кодом
😭 меня смутило, что качество замерили на каких-то абсолютно старых безлайнах. Камон, почему бы хотя бы не сравниться со всем известным BERT4Rec, если ваш подход такой классный

Статья

Читать полностью…

Love. Death. Transformers.

накидайте папир на которые хочется обзор

Читать полностью…

Love. Death. Transformers.

Релиз русифицированной модели от sambanovasystems

Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback

модель
blog

Читать полностью…

Love. Death. Transformers.

Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.

Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.

Портал пока находится в стадии беты, но уже работает:
https://dateno.io/

Читать полностью…

Love. Death. Transformers.

Чат, ищу людей с опытом подачи на UK talent как человек из науки (ds не наука в этом контексте), если у вас есть такой опыт - вас очень ждёт @rerayne

Читать полностью…

Love. Death. Transformers.

Очень важная инфографика на бенчамарках на 400 вопросах лежащих в опенсурс.

Ждём lmsys через пару недель, посмотрим.

Читать полностью…

Love. Death. Transformers.

Одна нейронка из предложения делает целый текст, другая по нему делает видео, третья пересказывает это видео в текст, четвертая сводит текст в предложение.


Напомните, почему мы этот уророборос выбрали?

Читать полностью…

Love. Death. Transformers.

Парень сделал Jarvis-like рабочий стол, смотрите!

ig

Читать полностью…

Love. Death. Transformers.

Собственно, в подтверждение моим мыслям про groq вышел любопытный блогпост про экономику инференса.
- грок оптимизирован под latency, это возможно на железкаах Nvidia, но не очень экономически целесообразно
-текущие провайдеры LLM в лучшем случае имеют небольшую марж

Выводы:
-цена инференса вероятно не упадет заметно пока Nvidia монополист на рынке *pu



блог

Читать полностью…

Love. Death. Transformers.

Илон Маск предъявил иск к Сэму Альтману и группе OpenAI.

Основания для иска:

1/ Нарушение договора
2/ Promissory estoppel
3/ Нарушение фидуциарных обязательств
4/ Недобросовестная конкуренция

Интересные детали из иска и юридический разбор будут в этом канале в ближайшее время, а пока что прикладываю сам документ для вашего самостоятельного изучения.

Надо сказать, что Маска в этом деле представляют не его обычные юристы, а относительно небольшая юрфирма. Это говорит об оппортунистическим характере иска, например, чтобы получить информацию в рамках процесса discovery (мы как раз писали об этом в последнем посте из цикла #KrasExamination).

@buzko_hub

Читать полностью…
Subscribe to a channel