У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents
Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.
Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏
Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.
🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.
🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴
🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.
🔹Паттерн 4: ведущий-ведомый 😭
То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.
🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.
Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.
Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).
The Pitfalls of Next-Token Prediction
Статья: https://arxiv.org/abs/2403.06963
Видео: https://www.youtube.com/watch?v=9V0bfZqT1Yo
Олды несомненно помнят, что в ранних seq2seq моделях, основанных на рекуррентных нейронных сетях, существовало два режима обучения: teacher-forcing, где на каждом шаге генерации в качестве входов использовались реальные токены, и другой режим с использованием токенов, предсказанных текущей версией модели. С появлением трансформеров и их параллельного обучения все стали использовать teacher-forcing. Авторы статьи возвращаются к этому вопросу.
🔹Задача
Авторы придумали простую синтетическую задачу: поиск пути между двумя вершинами в деревьях очень специфичной структуры, а именно в таких, где есть одна центральная вершина и несколько цепочек, исходящих из этой центральной вершины. Пример такого дерева (степень центральной вершины = 2, длина цепочек = 5):
8 ← 1 ← 5 ← 4 ← 3 → 0 → 2 → 6 → 7
3 → 4 | 5 → 1 | 4 → 5 | 0 → 2 | 3 → 0 | 1 → 8 | 6 → 7 | 2 → 6 / 3 7
3 → 0 → 2 → 6 → 7
Между прочим, рост на +inf процентов за год.
А вот что меня удивило — это самый популярный пост. Не обучающий материал. Не разбор статьи. Даже не смешнявка. Просто рандомная фигня, но почему-то на 35к просмотров.
На HF довольно давно появился пост, который я как-то пропустил, но который хорошо и кратко описывает основные оптимизации при обучении языковых моделей. Пост: ссылка
Есть ещё старый пост на ту же тему от Eleuther: ссылка
А пост ниже — это короткая выжимка от меня, именно по экономии памяти на одной карточке.
🔹Числа с плавающей точкой (IEEE 754) — основной тип для вычислений в языковых моделях, у них есть знак, экспонента и мантисса. Экспонента контролирует диапазон значений, мантисса — точность в рамках этого диапазона. Также напомню, что есть приколы с представлением чисел около нуля (aka денормализованные числа). Есть куча реализаций разной битности:
— float: 32 бита, E8M23
— tf32: 19 бит, E8M10 (специфичный для Nvidia формат, отсюда все странности)
— fp16: 16 бит, E5M10
— bf16: 16 бит, E8M7 (экспонента и диапазон как у float)
— fp8: 8 бит, E4M3 или E5M2
🔹На что тратится память:
W: Сами веса модели
A: Активации (промежуточные состояния, результат вычисления функции от входа и весов)
G: Градиенты (обновления весов модели при обучении)
O: Состояние оптимизатора (моменты и дисперсия)
При инференсе есть только W и часть A, при обучении есть все 4 категории. Далее у каждого метода стоят буквы, которые обозначают, что именно экономится.
🔹Методы экономии памяти при инференсе:
— Квантование модели (WA): ужимаем тип данных для весов и активаций. В большинстве статьей так и написано: W4A16, что означает, что веса в 4 битах, активации в 16 битах.
— Flash Attention (A): оптимизируем вычисление внимания поблочными вычислениями в кэше GPU, попутно уменьшая сложность по памяти с квадратичной по длине последовательности до линейной.
🔹Дополнительные методы экономии памяти при обучении на одной карточке:
— Смешанная точность (A): имеем рабочую копию в 16 битах (bf16 или fp16), а также мастер-копию в 32 битах. Все операции делаем с рабочей копией и потом обновления весов вливаем в мастер-копию. Вы спросите: а где профит? А профит в том, что активации в 16 битах, а активации — это дофига памяти.
— Квантование оптимизатора (O): ужимаем тип данных для состояний оптимизатора. Чаще всего в 8 бит, перед собственно применением градиентов расквантовываем.
— Аккумуляция градиентов (AG): если мы хотим батч из больше чем одного примера, то A и G тоже раздуются. Но нам совсем не обязательно считать градиенты параллельно, поэтому мы можем считать их последовательно, суммировать, и только потом применять. Если это правильно😁 отмасштабировать, то это теоретически эквивалентно обучению на всём батче.
— Чекпоинты активаций (A): при обучении нам по-хорошему нужны активации на всех слоях, чтобы потом считать по ним градиенты. Но нам сначала нужно дойти до лосса, поэтому мы выкидываем часть промежуточных активаций и пересчитываем их заново на основе оставшихся чекпоинтов тогда, когда они нам реально понадобятся для подсчёта градиентов.
— Адаптеры (GO): основную модель вообще не трогаем, учим только новый маленький набор весов. Градиенты считаем только по нему, и на этом сильно экономим.
На практике используется буквально всё, везде и сразу 🤯
Типичный конфиг:
"model": {Читать полностью…
"attn_implementation": "flash_attention_2", // вы поняли
"load_in_4bit": true, // квантование модели
...
},
"trainer": {
"gradient_accumulation_steps": 32, // аккумуляция градиентов
"bf16": true, // смешанная точность
"optim": "adamw_8bit", // квантование оптимизатора
"gradient_checkpointing": true, // чекпоинты активаций
...
},
"lora": {...} // адаптеры
o3 на 175 месте в Codeforces, то есть примерно 175й сильнейший программист во всем мире.
Это лучше 99,9% участников рейтинга (а все из них — это профессиональные программисты).
Живые участники рейтинга, у которых с 1 по 100 место — это люди, которые выигрывали золотые медали по информатике и продолжали профессионально участвовать в соревнованиях после школы/универа.
Мне недавно скинули одну модельку на оценку, и она оказалась очень хорошей.
Модель: https://huggingface.co/Moraliane/SAINEMO-reMIX
Это мёрж Сайги, Вихря и пары английских RP моделей. Получилось не так шизово и многословно, как оригинальная v3 Сайга, но всё ещё очень интересно.
В боте будет доступна завтра, когда в gptq 8bit переквантую, чтобы подешевле инферить.
В итоге, я настолько подавлена результатами дискуссии на openreview, что уже даже нет сил делать никаких оригинальных познавательных постов в паблик да и вообще что либо делать.
Я и коллеги, с которыми мы вместе писали статью, потратили реально много времени и сил на то, чтобы сделать все дополнительные эксперименты, которые просили ревьюеры, написать ответы этим самым ревьюерам и внести правки в статью (каждый из этих этапов подробно обсуждался на созвонах, а формулировки в ответах подолгу вылизывались).
Кроме того, я и как минимум ещё двое моих соавторов, которые сами были ревьюерами, параллельно внимательно разбирали ответы тех авторов статей, которые ревьюили мы и отвечали на них. Забавно, что в итоге мы все трое подняли оценки всем статьям, на которые делали ревью)) Ну а что делать, если авторы старались и исправили ряд недочётов, на которые им указали? Повышение оценки более чем справедливо в такой ситуации.
Но наши собственные ревьюеры, конечно, так не считали: ответом на наши собственные старания в ребаттле было в основном молчание.
Один ревьюер попросил сделать ещё один дополнительный эксперимент, а когда мы его сделали, никак это не прокомментировал и умолк навсегда. Другой в последний момент дискуссии ответил что-то похожее на генерацию LLMки, где было сказано, какие мы молодцы, но оценки не поднял. Двое остальных просто не реагировали, как будто умерли.
Когда соавтор решил написать об этой проблеме Area chair и senior area chair, они тоже ответили молчанием.
Я очень болезненно воспринимаю такие ситуация, когда так сильно стараешься, но тем, ради кого стараешься, на тебя настолько насратб, что лень даже два слова ответить... Руки опускаются...
#наука #о_себе
Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
Статья: https://arxiv.org/abs/2407.18370
Рецензии: https://openreview.net/forum?id=UHPnqSTBPO
Попарные оценки языковыми моделями с теоретическими гарантиями согласованности с людьми 😐
Что за теоретические гарантии? Предположим, что мы задаём уровень риска α и хотим, чтобы для примера x вероятность согласованности языковой модели с людьми на этом примере была больше 1 - α, при условии, что этот мы вообще оцениваем этот пример. Последняя фраза тут очень важна — очевидно, что есть примеры, на которых даже у людей очень низкая согласованность, и такие примеры мы хотим каким-то образом определять и не учитывать их в оценке. Теперь для каждого метода оценки у нас есть 2 чиселки: непосредственно согласованность с людьми, а ещё и покрытие, то есть доля примеров, которые мы не откинули в процессе оценки.
🔹Few-shot ансамблирование
Для начала нам нужно понять, а как вообще отсеивать примеры, которые мы не хотим оценивать? Для этого мы можем попросить модель каким-то образом вывести уверенность в своей оценке. Исходя из этой уверенности и маленького калибровочного набора данных, можно вывести минимальную уверенность для заданного α, ниже которой мы должны откидывать примеры.
Есть разные методы оценки уверенности модели, например можно взять прямую вероятность генерации ответа, или можно попросить модель явно выдавать уверенность текстом. Авторы считают точность, ROC AUC и другие метрики классификации для этих вариантов и показывают, что они жёстко переоценивают уверенность модели. Поэтому предлагается ансамблировать несколько few-shot ответов модели с разными наборами примеров в контексте. Авторы показывают, что такая уверенность лучше откалибрована, а значит позволяет отсеивать меньше примеров.
🔹Каскады
Второй шаг ещё интереснее: дело в том, что слабые модели тоже неплохо откалиброваны. А значит можно сначала прогнать примеры через дешёвые модели с высокой границей уверенности. Если они прошли фильтр — шикарно, используем дешёвую модель для оценки. Если нет — переходим к более дорогой модели. Полностью откидываем пример только тогда, когда все модели не уверены.
🔹Эмпирические оценки
А дальше оказывается, что это всё очень хорошо бьётся с эмпирической согласованностью. То есть теоретическая оценка согласованности действительно является оценкой снизу на практике. Кроме того, авторы показывают, что выкинутые примеры дейсвительно были бы выкинуты по несогласованности людей.
Итого мы получаем:
1) чёткую схему оценки
2) с теоретическими гарантиями согласованности
3) с эмпирической согласованностью выше, чем у GPT-4 💪
3) с инференсом в 2-5 раз дешевле, чем у GPT-4 😺
P.S. Гитхаб пустой, но весь код можно найти в доп. материалах на OpenReview 😁
Наличие выбросов в активациях извествено с LLM.int8(), bitsandbytes квантования уже работают с учётом этого.
Статья же выше логически продолжает эту же линию, находя прям очень маленький набор весов.
Сегодня последний день исправлений посылок на ICLR.
Я исправил всё, что обещал, в статье про ПингПонг:
- Значительно пределано введение и литература: докинуты ссылки и всё стало более базировано 😐
- 5 разметчиков везде, добавлены таблички их согласованности и подробности процесса разметки. Метрики моделек от этого не сильно поменялись, что очень хорошо.
- В сам лидерборд добавлен селектор с весами метрик. Когда-нибудь я соберусь и всю агрегацию данных сделаю на фронте... Но только не сегодня.
- Докинул сравнение с другим RP бенчмарком, RPBench-Auto.
- Добавил фрагмент текста про тюны на книжках, которые положительно влияют на RP метрики.
- Перефигачил все дополнения: примеры и промпты теперь в красивых синеньких рамках.
- Сделал тематический анализ RP датасета от Chai, по которому оценил, наксколько текущие ситуации репрезентативны.
- Ответил на все-все комментарии рецензентов.
Грустно, что из 6 рецензентов только один соизволил со мной попереписываться, он же накидал наибольшее число замечаний.
Посмотрим, что из этого выйдет.
😳
Лучше v1 при меньшей длине ответов, на ПингПонге тоже вполне сносно. Выложу как v3.
Что поменялось:
- Я исправил шаблон промпта, убрал лишние пробелы. Теперь он почти такой же, как у оригинального Немо, за исключением системного сообщения. Основная проблема была в том, что в SFT пробел перед ответом был, а в SimPO не было.
- Использовал чистый SimPO сет, только те пары, на которых Sonnet и GPT-4o сошлись во мнении.
Достоевского доливать не буду, он хоть и улучшает RP, в остальных кейсах становится серьёзно хуже, модель легче сломать.
Хорошая новость! Я уже получил полную разметку диалогов на русском от 3 людей, вместе с моей оригинальной это уже 4 разметчика. Я усреднил наши ответы, и посчитал корреляцию Спирмена с ответами ансамбля моделей. Она упала, но не принципиально: 0.669 -> 0.653. Так что как будто бы основные выводы статьи не изменятся.
Читать полностью…Теперь по поводу разметки. Я поднял пару инстансов LabelStudio и готов туда кого-нибудь пустить.
Там всего 265 диалогов на русском, для каждого из которых нужно ответить на 3 вопроса. Общий объём работы я оцениваю в 2 часа, готов за неё заплатить 3к рублей каждому человеку. Всего мне нужно 5 разметчиков.
Деньги могу перевести внутри России, по номеру карточки или номеру телефона.
Разметка точно не последняя (будет как минимум такая же для английского), в последующих разметках приоритет будет тем, кто успешно закроет эту задачу.
Форма заявки: https://forms.gle/iPu8YMvpKaEV7hDx8
Если с заявкой всё ок, я напишу в личку и расскажу детали. Не обижайтесь, если не отвечу: что-то мне подсказывает, что заявок будет больше, чем 5.
В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).
Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.
Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct
GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF
Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Будем рады фидбеку по достоинствам и недостатком модели.
Поздравляю всех подписчиков с наступающим Новым годом!
Про свои личные итоги года я писать не очень хочу: съездил в пару-тройку стран, написал статью, как-то поработал. Поэтому напишу про прочитанное и просмотренное, кому-то точно будет интересно.
Статьи:
— Zoology: крутая синтетическая задача (MQAR) и обоснование того, чего не хватает современенным рекуррентным сетям.
— Чувствительные функции: обоснование невыучиваемости трансформерами мегапростой задачи, parity.
— Медуза: критически важная штука на практике, ускорение моделей чуть ли не на порядок.
Сериалы:
— Pantheon: мультик про бессмертие через загрузку сознания, с крутыми сюжетными поворотами и неожиданным масштабом.
— Агент времени: китайское аниме про парней, которые умеют перемещаться в человека и момент на фотографии, чтобы добывать информацию.
— Severance: у главного героя и его коллег 2 физически отдельных личности на работе и вне работы, и в какой-то момент это становится проблемой.
Фильмы:
— Когерентность: очень дешёвый и очень прикольный фильм про параллельные вселенные. Да и в целом рекомендую весь жанр НФ триллеров, которые сначала маскируются под обычные ужастики: Прочь, Нет, Мы.
Игры:
— Balatro: карточный рогалик в покерной стилистике с кучей прикольных механик, в который я вбухал сотни часов.
— Factorio: Space Age: в представлении не нуждается. Скоро будет ровно 10 лет с того момента, как я купил оригинальную игру. DLC добавляет космические платформы и другие планеты с другим распределением ресурсов. А ещё дроны теперь открываются сильно позднее, поэтому приходится всё делать нормально.
— Marvel Rivals: новый командный геройский шутер. Очень зашёл мне, как постоянному игроку первого Overwatch.
Книги:
— Вселенная Боба: крепкая развелкательная фантастика (а я другого нынче почти и не читаю). Главный герой — человек, переродившийся в зонд фон Неймана, сначала спасающий Землю, а потом исследующий космос.
— Диктатор: скорее социальная фантастика про параллельную версию Земли и про человека, который хотел мира во всём мире.
— Вавилон: сокрытая история: фантастика про лингвистику в декорациях Оксфорда начала 19 века. Классная концепция, но слитая концовка.
А я напомнию, что индекс всех полезных постов всегда в закрепе: /channel/senior_augur/7
Читать полностью…Cut Your Losses in Large-Vocabulary Language Models
Статья: https://arxiv.org/abs/2411.09009
Рецензии: https://openreview.net/forum?id=E4Fk3YuG56
Код: https://github.com/apple/ml-cross-entropy
Статья про оптимизацию памяти при подсчёте функции потерь и её ближайших градиентов при обучении языковых моделей. Основной механизм — модифицированная реализация перекрёстной энтропии, Cut Cross-Entropy (CCE). Авторы берут ровно ту же оптимизацию, которая используется в Flash Attention (поблочное вычисление в кэше GPU), но применяют её к последнему слою и последнему софтмаксу.
Последний шаг при предсказании следующего токена — линейный слой и софтмакс. На каждом шаге генерации у нас есть вектор E с последнего слоя трансформера, мы умножаем его на матрицу C, получаем логиты в ℝ^|V|, для каждого логита считаем экспоненту и делим на сумму всех логитов из всего словаря. Так для каждого токена получаем вероятность, число в отрезке [0, 1]. Функция потерь при обучении — логарифм вероятности правильного токена (с минусом). Нас интересует только правильный токен, и только его логит нам нужен в числителе софтмакса. Логарифм в лоссе гасит экспоненту в числителе. Вычисление раскладывается на две части: вычисление логита правильного токена и вычисление слагаемого нормализации по E и всем столбцам C (логарифм суммы экспонент).
При обучении мы можем считать всё параллельно для всех токенов, поэтому там уже не вектор E, а матрица E.
Для вычисления логитов правильных токенов авторы выгружают блоки релевантных столбцов C и блоки E в кэш, считают там скалярное произведение, и выгружают назад в основную память только финальный результат. Вычисление логарифма суммы экспонент гораздо хитрее, как и вычисление его градиентов, но концепция та же.
Кроме собственно оптимизаций с кэшом, используется тот факт, что большинство значений на выходе софтмакса "плохие", то есть очень близкие к нулю. Из-за ограниченной точности чисел с плавающей точкой, "плохие" значения ни на что не влияют при использовании в слагаемом нормализации. И для них авторы предлагают просто не считать градиенты. Вторая оптимизация такого рода — сортировка словаря по средним логитам, чтобы токены с "плохими" логитами попадали в один блок, и можно было такие блоки полностью пропускать.
По классификации в прошлом посте — это AG метод, полезен только при обучении. Есть и древние альтернативы, да хотя бы иерархический софтмакс или адаптивный софтмакс.
Экспериментально для Мистраля Немо удалось уменьшить память на лосс+градиенты с 8 Гб до 1.3 Гб, что лучше, чем в Liger Kernel. Аналогичная (и иногда даже более существенная) экономия памяти есть и для других моделей.
Потрогать можно через их библиотеку и патчинг модели. То есть вы делаете вот такое:
from cut_cross_entropy.transformers import cce_patch
model = ...
model = cce_patch(model)
OpenAI душат (потому что o2 нет).
Это всё ещё неимоверно дорого, как и весь test-time compute, но иногда это стоит того. Особенно в тех случаях, когда человеки не могут что-то решить в принципе.
И ещё одна хорошая моделька, на этот раз закрытая. В боте уже доступна.
Амазоновская Nova Pro тоже теперь есть в лидерборде, но с ней всё не очень хорошо.
Большой день.
Мы выкладываем в опенсорс наши модели T-Lite и T-Pro. И эти модели просто топ 🥳
Мы увереннно выбиваем #1 среди открытых моделей по разным бенчам на русском. По MERA мы взяли #2 модель на русском ещё и включая все API, уступая только GPT-4o.
Это до-тренированный qwen-2.5 в размерах 7B и 32B. Мы провели большую работу: свой токенизатор, глубокое до-обучение на русский и специфичные корпуса. Аккуратная работа с данными. Тех репорты будут.
Этот релиз является подтверждением нашего подхода в LLM: допретрен на базе опенсорса и затем файнтюн под доменные области. Получается значительно лучше результат и мы тратим на порядок меньше денег (не преувеличение).
Пользуйтесь. Модели для инженеров, рекомендуется дальнейший файнтюн, например через наш Turbo-Alignment.
Наш новый HF: https://huggingface.co/t-tech
Лидерборд по MERA: https://mera.a-ai.ru/ru/leaderboard
Остальные бенчи тоже есть, арены будут как прокрасятся
Learned Embedding Propagation (LEP) + анонс релиза RuadaptQwQ-32B
Расскажу немного подробнее про идею, которая стоит за текущими версиями Ruadapt моделей. Наше предыдущее решение требовало после адаптации базовых версий моделей дополнительно их дообучать по сути с “базы”, из-за чего терялись многие успешные инструктивные версии моделей, которые нельзя просто взять и воспроизвести из-за отсутствия обучающих данных (те же 10 миллионов инструкций LLaMa-3 не были открыты комьюнити). Другим ярким примером может послужить недавняя Qwen/QwQ-32B-Preview, так как не понятно как ее учили и на каких данных.
Тут то на помощь и приходит предложенный нами метод Learned Embedding Propagation (LEP). Идея метода состоит из 3 шагов:
1. На первом шаге мы также адаптируем исходную базовую модель
2 . На втором шаге мы рассчитываем проекцию из исходной базы в целевую исходную инструктивную версию (например, из Qwen/Qwen2.5-32B 🔜 Qwen/Qwen2.5-32B-Instruct)
3. На третьем шаге мы применяем данную проекцию 🔜на Ruadapt версию базы!
4. На самом деле есть еще 4-й шаг, по сути очень важный, это шаг калибровки / дообучения, но он “опционален”
В итоге, после 3 шага мы по сути имеем адаптированную инструктивную версию модели, и при этом она не сломалась и работает весьма успешно уже на новой токенизации, но из-за неточностей отображения качество несколько просаживается и могут быть новые артефакты. Поэтому все модели, которые мы выкладывали ранее, дополнительно калибровались/дообучались на открытых инструктивных данных, таких как saiga_scored.
А теперь обращу внимание вот на что.
Самое дорогое - это как раз первый шаг, адаптация базовой версии модели и в этом шаге нигде не используется никакая информация о будущей инструктивной версии, а значит, адаптировав базу и применяя LEP, мы можем адаптировать модель на любую инструктивную версию с этой базы!
И вот возьмем, недавно вышедшую Qwen/QwQ-32B-Preview, несмотря на то, что мы вообще не знаем как и на чем она обучалась, мы знаем, что ее базой является, Qwen/Qwen2.5-32B, поэтому мы легко можем сделать версию RuadaptQwQ-32B-Preview-LEP. С шагом 4 тут посложнее, так как хороших данных для подобного типа моделей я пока что не видел. На текущий момент предлагаю попробовать RuadaptQwQ-32B-Preview-LEP в поднятом Space (https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5), но обращаю внимание, это модель сразу после LEP, без дополнительных шагов дообучения, да и тестирования особо никакого с этой моделью пока не производилось.
Соответственно релиз RuadaptQwQ в планах, но через какое-то время. Буду рад фидбеку по любой из наших моделей в комментариях к посту или другим любым способом.
Кстати, смотрите кто в топ-15 по оценкам на ICLR: https://arxiv.org/abs/2407.01082
А знаете, кто в Acknowledgements?
The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight
Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.
Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.
Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).
Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.
Напомню, что MLP блок в Ламе выглядит так:
out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )
SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.
Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.
По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.
Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.
Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.
Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (/channel/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.
Тем временем ответил на все рецензии и сделал инстансы для разметки английских диалогов 😵
Сама разметка оказалась гораздо более простым процессом, чем мне представлялось. До этого я всю жизнь пользовался Толокой (и sandbox её версией), переход на LabelStudio оказался не таким уж и сложным. Там одинаковая логика html-like шаблонов заданий, так что мои экспертные знания менеджера по разметке пригодились 😂
Ещё чуть экспериментировал с модельками для стихов, ничего хорошего пока не вышло.
Плюс был вынужден поставить фильтр на ответы Сайги в чатах при затрагивании определенной тематики (см. КоАП 6.21).
Пяти людям выдал проекты. Всем, кто отправлял заявки — спасибо! Вполне может понадобится больше людей, плюс впереди ещё английские диалоги, и может быть вам я напишу чуть позже.
А пока я расскажу, как именно устроен проект. Есть бесплатная и платная версия LabelStudio. Основное ограничение бесплатной версии — нет разделения юзеров по правам, у всех админский доступ. То есть никакие серьёзные проекты так делать нельзя.
В минимальной платной версии вы платите 99$ в месяц + 50$ за каждого юзера. Что ОЧЕНЬ дорого для такого маленького проекта.
Какой я нашёл выход: для каждого разметчика существует отдельный бесплатный инстанс LabelStudio с отдельной базой данных. Они все запущены на одной машине, но хранят данные в разных папочках и работают через разные порты. Поверх всего этого есть reverse proxy: Ngrok, который всё это дело светит в Интернет и перенаправляет запросы в разные инстансы.
То есть я не плачу денег LabelStudio, и каждый разметчик работает в изолированной среде, чего и хотелось.
Наконец-то дошёл до рецензий на ПингПонг, вот основные проблемы с точки зрения рецензентов:
1) Только один разметчик, я. Очевидная проблема, и для её правильного исправления мне как раз и понадобится ваша (небесплатная) помощь. Про это будет отдельный пост. Сюда же можно отнести недостаточную прозрачность по инструкциям разметки и составу разметчиков.
2) Недостаточность сравнения с другими бенчмарками. Необходимость сравнения с Creative writing недостаточно обоснована, плюс вроде как есть одноходовые бенчи, с которыми можно сравниться. С этим согласен, попробую найти ещё варианты.
3) Метрики слишком субъективны. И вообще, их мало. С этим не очень согласен, тут ничего менять не буду, попробую просто ответить.
4) Нет возможности перевзвесить финальную метрику в зависимости от того, какой именно аспект интересен. Вот это прикольно и вполне реализуемо, сделаю.
5) Опрашивающая модель может быть непохожа на пользователей. Это тоже интересно, тут помогла бы кластеризация по интентам и темам какого-нибудь RP датасета с целью показать, что мой набор ситуаций репрезентативен. Не уверен, что я успею это сделать.
6) Недостаточная дифференциация моделей. Проблема есть, имхо решается промптингом, но тогда нужно делать v3 и пересчитывать все модели, я пока на такое не готов.
7) Нет примеров пользы от бенчмарка. Тут я просто добавлю историю про Гутенберг.
Кроме этого, один из рецензентов докопался до текста в куче мест, и не везде за дело: часть поправлю, на часть просто отвечу.
И наконец, один из рецензентов такой "ну обычная симуляция юзеров, ничего нового, разве что на этот раз в RP, it's a minor increment". Мало того, он написал что видел такое в "нескольких других статьях", не уточнив, в каких блин именно! И такие типы рецензий меня бесят больше всего. Чел, 99.9% статей — это minor increment, и если бы ты хотя бы привёл примеры, я бы тебе по фактам расписал, в чём новизна.
В целом, после внимательного прочтения оказалось, что всё не так плохо.
Ревью на ICLR вышли. В том числе на ПингПонг.
Итог: 633353 с уверенностью 443434.
Первые цифры означают итоговую оценку. 3 = отказ, 5 = чуть хуже принятия, 6 = чуть лучше принятия. В уверенности: 4 = сильно уверен, но не прям до конца, 3 = уверен, но может ошибаться. Итоговый средний балл = 3.83, что лучше всего 20% сабмитов. Статистику можно посмотреть тут.
Такие оценки примерно означают, что даже после оспаривания и доработок шанс реджекта примерно 99.(9)%.
Оспариванием я всё равно займусь серьёзно, потому что во-первых цель-то была сделать статью лучше, а во-вторых ревью и ответы публичны. Есть у меня на это две недели, сегодня сделаю из ревью выжимку основных проблем и путей решения. От вас мне тоже может понадобиться помощь, но об этом напишу позднее.