C4AI Command-R
- 35 В
- 128к контентекста
- alignment на tool, rag usage(!)
- русский в претрене
- лицензия под что угодно
Бенчей нет
Карточка на хф
Playground умеет в chat with doc и web search из коробки
если вам интересны точные цифры
я не ебу почему это работает и почему на тех или иных бенчах те или иные числа
анекдот вспомнился: /channel/lovedeathtransformers/6849
ELLA: Equip Diffusion Models with LLM for
Enhanced Semantic Alignment
Идея:
- CLIP как эмбедер не очень, давайте добавим в исходных Unet от sd1.5/xl слои которые будем обучать на эмбедингах из LLM, тем самым мы не потратим миллион денег на компьют, но начнем рисовать текст, понимать промпты и генерировать как большая модель.
site
code(выйдет попозже погулять)
RUNorm и char level number tokenization
1. Немного о RUNorm
Сейчас помимо RUAccent, я начал заниматься проектом RUNorm. Данная система должна нормализовывать текст перед акцентуацией и собственно синтезом речи.
Нормализацию текстов можно подразделить на следующие подзадачи:
1. Нормализация сокращений (1990 г. -> 1990 год, г. Москва -> город. Москва)
2. Нормализация аббревиатур (ПТСР -> пэ тэ эс эр)
3. Нормализация английских слов (Microsoft -> майкрософт)
4. Нормализация чисел (в 2009 -> в две тысячи девятом)
Нормализация сокращений уже работает довольно неплохо:
:> Моя зп. всего 15 тыс. руб.
>>> Моя зарплата всего пятнадцать тысяч рублей
:> Мой адрес : г. Москва, р-н Бутово, д. 12, кв. 20
>>> Мой адрес город Москва, район Бутово, дом двенадцать, квартира двадцать
:> Я родился в 1900 г.
>>> Я родился в 1900 году.
Текущий пайплайн сейчас состоит из двух моделей - ruT5-base, bert на 3м параметров и некоторых правил взятых отсюда.
2. Как посимвольная токенизация цифр должна помочь в нормализации?
Эксперимент с решением задачи "в лоб" показал, что модель часто галлюцинирует и путает некоторые числа.
Пример таких галлюцинаций:
:> Конец света будет в 2045 г.
>>> Конец света будет в тысяча сорок пятом году.
:> В 1987 г. произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — 22,6 %
>>> В тысяча девятьсот семьдесят седьмом году произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — двадцать два целых и шесть десятых процента.
Возможное решение подобных проблем - правильная токенизация чисел.
Стандартный токенизатор модели ruT5-base работает примерно так:
:> tokenizer_orig.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁12', '.09.', '1923']
Новый токенизатор:
:> tokenizer.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁1', '2', '.', '0', '9', '.', '1', '9', '2', '3']
Доработка токенизатора очень простая, все токены являющиеся числами и длиной более 1 символа (без учета пунктуации), были заменены на "<garbage>".
Подробнее можно ознакомиться в данном ноутбуке
Для теста полученной модели была выбрана задача решения арифметических задач, т.к. датасет был под рукой и было можно обучить в короткие сроки.
По результатам тестирования были получены следующие метрики:
Arith acc digit5_ft: 0.586286056492664
Arith acc rut5_ft: 0.2418904082243737
P.S. Все тесты проводились без сэмплинга
Модель с модифицированным токенизатором ушла вперед с огромным отрывом.
Проект Open Language Data Initiative, про который я рассказывал недавно, заведует не только тестовым датасетом FLORES+, но и обучающим датасетом NLLB-seed.
Это 6К предложений из английской Википедии на разнообразные темы, часто на какую-то сложную научную тематику. Мои коллеги в своё время организовали перевод этого датасета на 39 малоресурсных языков, и показали, что включение этих текстов в обучающий датасет для модели-переводчика значительно улучшает её качество.
Сейчас проект oldi.org принимает переводы этого датасета и на другие языки тоже. Но проблема в том, что кроме английского, этот датасет сейчас существует только на редких языках, переводить с которых будет ещё сложнее чем с английского (хотя для переводов на тюркские языки, наверное, можно подглядывать в крымскотатарскую версию).
Чтобы решить эту проблему, я сделал бота @crowd_translate_bot для сбора и проверки человеческих переводов* с английского на русский (с тем, чтобы потом с русского было проще переводить на другие языки нашего региона). Будет здорово, если воспользуетесь этим ботом и поучаствуете в коллективном переводе датасета 🙃
* Хотя многие модели уже очень хорошо переводят между английским и русским, важно собирать именно человеческие переводы, потому что это всё-таки чуть надёжнее, и потому, что если собрать переводы от нескольких людей, они будут разнообразнее по стилю, чем машинно переведёные.
Нас тут 2К в этом чате, и если каждый третий из нас переведёт по 10 предложений (и проверит где-то по 25, включая намайненные мной возможные переводы из Википедии и двойную проверку переводов других людей), то перевод NLLB-Seed на русский будет собран, и можно будет переходить к более интересным языкам.
Orca-Math: Unlocking the potential of SLMs in Grade School Math
Оказывается если затюнить модель на датасет очень похожий на test set, то модель будет лучше работать на test set. Данные в свою очередь надистилировали из gpt4 turbo.
Data
Папир
У меня есть несколько значительных апдейтов касательно AQLM:
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
Возможно в текущем виде lmsys уже недостаточен, субъективно claud3 > gpt4 turbo > gpt4
Читать полностью…проблема разнообразия ответов
если вы хотите косплеить дипмайнд и решать задачу LLMкой, но в стиле монтекарло, то вы упираетесь в одну простую проблему - количество уникальных адекватных вариантов которые генерит LMка на один и тот же запрос лежит в диапазоне от 10(для DPO) до 1000 (для отдельных aligment чекпоинтов).
и эта проблема будет вас приследовать вне зависимости от того насколько "хороша" ваша модель, такой юзкейс не распространен вне alpha* like задач
Принес вам реальные метрики Claude 3 vs GPT-4
Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.
А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
у нас есть эффективные архитектуры дома
эффективные архитектуры дома:
тут тихо релизнулась папира sd3, линк скинул @seeallochnaya
Релиз claudе3
- сота с отрывом 0.04 пункта по mmlu
- в целом почти по всем бенчам дотюнились до gpt4
Ссылка
(краткий пересказ введения к большой книжке Лейнстера "Entropy and diversity: The axiomatic approach" 2022)
Биоразнообразие кажется интуитивным понятием: много разных видов, чем их число больше, тем выше степень биоразнообразия. Но как быть с количественной мерой? Допустим, есть два сообщества A и B. С одной точки зрения, важно максимальное число представленных видов и не важно, насколько они распространены. С другой – важны только распространенные виды и их вклад. В зависимости от точки зрения, группа A или группа B будут считаться более разнообразными.
На самом деле, эти позиции – два противоположных конца континуального семейства однопараметрических мер биоразнообразия {D_q} для q in [0, infinity). Чем меньше значение q, тем больший вклад в биоразнообразие вносят редкие и малочисленные виды и наоборот.
Понятие биоразнообразия тесно связано с энтропией и фактически Шенноновская энтропия – это логарифм меры биоразнообразия D_1. Или, например, меры биоразнообразия D_q, известные в экологии как числа Хилла (Hill numbers), представляют собой экспоненты энтропии Реньи. Лейнстер доказывает, что числа Хилла – единственная мера биоразнообразия, обладающая natural properties в категорном смысле.
Кажется логичным, что помимо числа собственно представителей в сообществе, необходимо учитывать и их попарное подобие или генетическое родство. Существуют меры биоразнообразия, которые учитывают и это. Однако все они сводятся к мерам, связанным с энтропией Реньи, что также доказывается Лейнстером.
Современное животноводство активно использует антибиотики в производстве, порой неаккуратно, что приводит к появлению резистентной микрофлоры у домашнего скота. Высказывался ряд опасений, что появление таких резистентных бактерий может повлечь за собой эпидемии и среди людей, но Mather et al. показали, используя меры diversity для сравнения бактериальных семейств живущих с разными видами рядом, что резистентные Salmonella взятые у животных, вряд ли являются причиной резистентности у Salmonella живущих с человеком
Наконец доехал из перевода Veles2.5 - переведенный на русский Hermes2.5 через gpt3.5
Вероятно доедет за несколько недель вихрь-велес
Датасет для русского
Однажды я сидел в ереване, кушал фалафель с кебабом и думал - а почему мы можем стакать модели(копировать блоки друг за другом), но не можем урезать блоки? ну те что нам мешает взять и оставить из 30 блоков модели например 20? А почему не 10?
Ну я пришел домой, обрезал мистраль в 10 блоков из 30(модель стала 2B) и .... это полетело! НУ те бенчи просели cильно, но не в рандом!!
(в данном контексте 100% это 45 по ммлу)
А потом кто то из подписчиков скинул работу ShortGpt - логика примерно такая же, получается даже неплохо.
paper
smallstral
🧦 Удобный датасет для сегментации одежды на HF 🧦
Я взяла за основу IMaterialist — профильтровала и адаптировала его под задачу сегментации, решив ряд сложностей:
1. На фотках присутствуют несколько людей, иногда одежда размечена только у одного
2. Много лишних деталей. Так, например, если класс "карманы" который относится и к карманам на куртке, и к карманам на юбке
3. Нереально большое число классов распознавания, которое на практике не особо нужно
4. К сожалению, в оригинальном датасете присутствуют ошибки разметки. Я постаралась также их уменьшить на постпроцессинге
Что я сделала:
1. Убрала фотки где присутствует человек с неразмеченной одеждой
2. Постаралась максимально раскидать карманы по ближайшим классам, чтобы они были частью кофты/штанов. Оставила 8 самых главных классов ('background', 'upperbody', 'upperbody_up', 'lowerbody', 'wholebody', 'wholebody_up', 'shoes', 'accesories')
3. Перепроцесснула сложный csv в удобный формат с простым классом датасета: он берет данные из папки с исходными фотками и из папки с масками в формате .npy
На 3.5k подписчиков выложу код
А как вы развлекаетесь на выходных? 😄
Cледуй за белым кроликом - WhiteRabbitNeo
- это сетка орентированна на киберсеков и она не плохая для проги
- она умеет генерить ответы с json, вызывать тулы и прочее
- сходу пишет код с многопоточностью(приятно)
- неплохо пишет DL код
Она и правда классная!
hf org
site
ЙОУ, скучали? Я сильно. Во-первых, всех причастных, поздравляю с праздником. Для меня этот праздник имеет теплую атмосферу и ассоциацию с весенним настроением 🥰
Теперь о главном🤓
SPAR: Personalized Content-Based Recommendation via Long Engagement Attention
Рекомендашки заполонили мою жизнь уже почти полгода как, а особенно интересно учитывать целостно контент из всех модальностей сразу. И вот пока меня не было в сети тг, вышла офигенная статья, как раз по теме, которой я занимаюсь. Поговорим о том, как в 24 году построить рекомендашку, которая учитывает текст
Базово: есть разные подходы😬
💛Основной: давайте возьмем айдишники товаров и построим сиквенсы новых рекомендаций на основе истории.
💛Также мы можем применять 2 башни моделей (dssm), чтобы точнее использовать характеристики еще и персональные. Одна голова товаров, а другая пользователей.
💛Окей, но что делать, чтобы учитывать еще и текст? Все просто, давайте получать эмбединги и внедрять в обработку как и раньше. Тут на ум приходят уже все многочисленные подходы в названии которых содержится “BERT”
❔Так вот, в чем отличие именно нового подхода?
Смотрим картинку в приложении и распутываем в голове последовательности всех блоков
😎текстовый контент может выходить за 5к токенов. Поэтому, как уже и принято в подобных архитектурах, мы кодируем разные части историй взаимодействий отдельно, а потом объединяем. В этой статье авторы еще и придумали считать sparse attention, так как обычно в рекомендательных системах особо остро стоит потребность в быстрой обработке, тут мы хотя бы можем сократить сложность вычислений.
😎решаем проблему холодного старта с помощью формирования портрета с помощью LLM (эх, жаль, что такие гениальные идеи приходят одновременно многим людям, круто что авторы уже реализовали это в своем подходе первыми)
😎кодируем каждый сеанс пользователя отдельно, чтобы обучить codebook внимания и составлять общую историю на late fusion. За это респект. Опять же высоким RPS подход передает привет
😎на выходе используем NCE loss
Какие минусы увидела, пока читала статью (субъективно мое мнение):
😭 прошаревшись в том, что для рекомендательных систем необходима высокая скорость вычисления, я не нашла в статье ни одного упоминания скорости помимо оптимизаций внимания, что меня пока расстраивает
😭 я не нашла хоть какой-нибудь репозиторий с кодом
😭 меня смутило, что качество замерили на каких-то абсолютно старых безлайнах. Камон, почему бы хотя бы не сравниться со всем известным BERT4Rec, если ваш подход такой классный
Статья
Релиз русифицированной модели от sambanovasystems
Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback
модель
blog
Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.
Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.
Портал пока находится в стадии беты, но уже работает:
https://dateno.io/
Чат, ищу людей с опытом подачи на UK talent как человек из науки (ds не наука в этом контексте), если у вас есть такой опыт - вас очень ждёт @rerayne
Читать полностью…Очень важная инфографика на бенчамарках на 400 вопросах лежащих в опенсурс.
Ждём lmsys через пару недель, посмотрим.
Одна нейронка из предложения делает целый текст, другая по нему делает видео, третья пересказывает это видео в текст, четвертая сводит текст в предложение.
Напомните, почему мы этот уророборос выбрали?
Собственно, в подтверждение моим мыслям про groq вышел любопытный блогпост про экономику инференса.
- грок оптимизирован под latency, это возможно на железкаах Nvidia, но не очень экономически целесообразно
-текущие провайдеры LLM в лучшем случае имеют небольшую марж
Выводы:
-цена инференса вероятно не упадет заметно пока Nvidia монополист на рынке *pu
блог
Илон Маск предъявил иск к Сэму Альтману и группе OpenAI.
Основания для иска:
1/ Нарушение договора
2/ Promissory estoppel
3/ Нарушение фидуциарных обязательств
4/ Недобросовестная конкуренция
Интересные детали из иска и юридический разбор будут в этом канале в ближайшее время, а пока что прикладываю сам документ для вашего самостоятельного изучения.
Надо сказать, что Маска в этом деле представляют не его обычные юристы, а относительно небольшая юрфирма. Это говорит об оппортунистическим характере иска, например, чтобы получить информацию в рамках процесса discovery (мы как раз писали об этом в последнем посте из цикла #KrasExamination).
@buzko_hub