lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4254

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

TDPO — потокенный DPO или просто регуляризация?

Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.

DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.

Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.

Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.

Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.

Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.

Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.

Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.

С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.

Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.

Разбор подготовил Михаил Хрущев

Душный NLP

Читать полностью…

Love. Death. Transformers.

https://www.producthunt.com/posts/futudo

Какой то чувак вместо того чтобы написать в личку и попросить репостнуть решил поспамить в Мейн чат. А жаль, полезный проект, вот бы какой нибудь блогер читал и такой: о прикольно.

Потыкайтесь в ph что ли.

Читать полностью…

Love. Death. Transformers.

Говорят в этом мерче проходят фейсконтроль в любой гейклуб

Читать полностью…

Love. Death. Transformers.

Раньше чтобы тебя не детектили системы как человека надо было носить одежду как справа. Теперь достаточно одежды как слева.

Я напомню что среди DSов есть секта:

ОБУЧЕНИЕ ВСЕ, вам достаточно сделать import openai и все. И почему они все ведут какие то курсы... На работу их не берут что ли...

Читать полностью…

Love. Death. Transformers.

маленькая девочка попросила Бога: а можно в мере будет \n и \t экранированы???

вместе с девочкой плакало половина гигачата....

Читать полностью…

Love. Death. Transformers.

В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).

Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.

Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct

GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF

Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Будем рады фидбеку по достоинствам и недостатком модели.

Читать полностью…

Love. Death. Transformers.

обзор на qwen2.5

сегодня.

Читать полностью…

Love. Death. Transformers.

почему на сайте дойки.ком нет возмжности быстро узнать doi нужной статьи

Читать полностью…

Love. Death. Transformers.

Redteaming is all you need

Читать полностью…

Love. Death. Transformers.

https://www.avito.ru/moskva/tovary_dlya_kompyutera/nvidia_geforce_rtx_4090_48gb_turbo_2024_4494188888

во, нормально

донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK

Читать полностью…

Love. Death. Transformers.

Довольно ценная штука, полезно посмотреть как учить audio ae. Хотелось бы большой блогпост, надеюсь Терра напишет.

Читать полностью…

Love. Death. Transformers.

использовать отклонение уровня тестостерона фаундера от нормы как мультипликатор при оценке

>for testosterone, we observe that founders at the pre-seed and acquired stages had median levels below the healthy range. Seed and Series A founders were within the healthy range but below optimal levels. Only at the Series B stage did the median testosterone level enter the optimal range, although statistical significance could not be established due to the small sample size <..>

https://arxiv.org/pdf/2411.03361

Читать полностью…

Love. Death. Transformers.

саундтрек

Читать полностью…

Love. Death. Transformers.

сколько C level_ов заменит крыса с гигачатом?

Читать полностью…

Love. Death. Transformers.

чет проебался, думал сегодня день рекламы яндекса, а оказалось что сбера...

блять а мне же не платят даже за это, мы же просто орков гоняем в балде...

ладно, челы шарят как учить llm с качеством отличным от рандома, а это сложно

Читать полностью…

Love. Death. Transformers.

Знаете как я понимаю что скоро новый релиз опенаи? Модели тупеют и ОЧЕНЬ значимо

Читать полностью…

Love. Death. Transformers.

https://www.arxiv.org/pdf/2408.03047

Мда.

Читать полностью…

Love. Death. Transformers.

Кстати еще есть футболки чтобы тебя не замечали женщины, тред в коментах!

Читать полностью…

Love. Death. Transformers.

Qwen2.5-Coder
- 23T токенов в претрене
- 23Т токенов пролито через 0.5b модель и она приросла по метрикам до уровня gemma2b которая как llama2 7b. Чтож.
- Добавили Math данных из Qwen Math
- В SandBox проверяли код на компилируемость
- Учили на FileLevel - те внутрь контекста складывали файл кода целиком
- Учили с <FILL IN THE MIDDLE> ака MLM таской - это важно для решения разных бенчей

<|repo_name|>{repo_name}
<|file_sep|>{file_path1}
{file_content1}
<|file_sep|>{file_path2}
{file_content2}
<|file_sep|>{file_path3}
<|fim_prefix|>{code_pre}<|fim_suffix|>{code_suf}<|fim_middle|>{code_fim}<|endoftext|>

вот в таком виде учили на ЦЕЛЫХ РЕПОЗИТОРИЯХ!!

- Модель на большинстве оффлайн бенчмарков на уровне gpt4o/sonnet3.5. Имея 32b параметров. 32b.
- На скрине live code bench - датасет который обновляется PRами и на нем пока что не научились оверфитится, для контекста - sonnet 3.5 - от июня выдает 38.1

paper

Читать полностью…

Love. Death. Transformers.

англоязычное пространство: openai, antropic, google, meta, куча китайских лаб с сотнями сотрудников дерутся за лучшие претрены, и лучшие aligemntы, опенсурс делается на огромные гранты , гиганты выдают в опенсурс llama и gemma

русскоязычное пространство: э, ну у нас есть три команды энтузиастов которые на свои деньги что то делают.
Еще есть бигтехи со своими претренами, но туда мы не ходим, там 7б модели по 20usd/m токенов

Читать полностью…

Love. Death. Transformers.

Ищу денег на обучение Berta на 18т токенов, писать в лс @transformerslovedeatch

Читать полностью…

Love. Death. Transformers.

ну раз речь про диффузии пошла...

https://huggingface.co/learn/diffusion-course/unit0/1

- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда

Читать полностью…

Love. Death. Transformers.

Я в восторге от рекламы новых unitree, робособака с колесами выглядит как будущее

Читать полностью…

Love. Death. Transformers.

19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223

Читать полностью…

Love. Death. Transformers.

nvidia rtx5880 вышла))

https://www.nvidia.com/en-us/design-visualization/rtx-5880/

Читать полностью…

Love. Death. Transformers.

Я опубликовал простой аудио AE. По сути, это адаптированный SoundStream, из которого я убрал дискретные токены, оставив только латентные представления.

Читать полностью…

Love. Death. Transformers.

Выложил v2 версию Сайги Немо. Основных изменений 3:
- Я убрал 80+ примеров из SFT, в которых использовались системные промпты персонажей из ПингПонга. Они появились там до ПингПонга из логов бота, собственно сам лидерборд я собирал на их основе. Это может считаться утечкой, поэтому они убраны из обучения.
- В SimPO датасете я агрессивнее порезал длину и увеличил вес SFT лосса, чтобы укоротить ответы и уменьшить количество выдуманных слов.
- Дотюнил на Достоевском и смёржил ровно так, как я делал для Вихря.

На ПингПонге стало лучше, на арене пока нет результатов.

Если кому-то захочется остаться на v1, везде можно указать ревизию, они есть в карточке модели.

GGUF'ы будут завтра.

Читать полностью…

Love. Death. Transformers.

вообще репорт интересный, медианный участник опроса прямо кричит "я унылая посредственность из богом забытой команды в глубине сбера"

Читать полностью…

Love. Death. Transformers.

все ваши диффзуии будут хуже хорошей llm и вот почему

1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...

Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2

Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!

Статьи нормальной нет, но блогпост интересный

Читать полностью…

Love. Death. Transformers.

Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Читать полностью…
Subscribe to a channel