Cледуй за белым кроликом - WhiteRabbitNeo
- это сетка орентированна на киберсеков и она не плохая для проги
- она умеет генерить ответы с json, вызывать тулы и прочее
- сходу пишет код с многопоточностью(приятно)
- неплохо пишет DL код
Она и правда классная!
hf org
site
ЙОУ, скучали? Я сильно. Во-первых, всех причастных, поздравляю с праздником. Для меня этот праздник имеет теплую атмосферу и ассоциацию с весенним настроением 🥰
Теперь о главном🤓
SPAR: Personalized Content-Based Recommendation via Long Engagement Attention
Рекомендашки заполонили мою жизнь уже почти полгода как, а особенно интересно учитывать целостно контент из всех модальностей сразу. И вот пока меня не было в сети тг, вышла офигенная статья, как раз по теме, которой я занимаюсь. Поговорим о том, как в 24 году построить рекомендашку, которая учитывает текст
Базово: есть разные подходы😬
💛Основной: давайте возьмем айдишники товаров и построим сиквенсы новых рекомендаций на основе истории.
💛Также мы можем применять 2 башни моделей (dssm), чтобы точнее использовать характеристики еще и персональные. Одна голова товаров, а другая пользователей.
💛Окей, но что делать, чтобы учитывать еще и текст? Все просто, давайте получать эмбединги и внедрять в обработку как и раньше. Тут на ум приходят уже все многочисленные подходы в названии которых содержится “BERT”
❔Так вот, в чем отличие именно нового подхода?
Смотрим картинку в приложении и распутываем в голове последовательности всех блоков
😎текстовый контент может выходить за 5к токенов. Поэтому, как уже и принято в подобных архитектурах, мы кодируем разные части историй взаимодействий отдельно, а потом объединяем. В этой статье авторы еще и придумали считать sparse attention, так как обычно в рекомендательных системах особо остро стоит потребность в быстрой обработке, тут мы хотя бы можем сократить сложность вычислений.
😎решаем проблему холодного старта с помощью формирования портрета с помощью LLM (эх, жаль, что такие гениальные идеи приходят одновременно многим людям, круто что авторы уже реализовали это в своем подходе первыми)
😎кодируем каждый сеанс пользователя отдельно, чтобы обучить codebook внимания и составлять общую историю на late fusion. За это респект. Опять же высоким RPS подход передает привет
😎на выходе используем NCE loss
Какие минусы увидела, пока читала статью (субъективно мое мнение):
😭 прошаревшись в том, что для рекомендательных систем необходима высокая скорость вычисления, я не нашла в статье ни одного упоминания скорости помимо оптимизаций внимания, что меня пока расстраивает
😭 я не нашла хоть какой-нибудь репозиторий с кодом
😭 меня смутило, что качество замерили на каких-то абсолютно старых безлайнах. Камон, почему бы хотя бы не сравниться со всем известным BERT4Rec, если ваш подход такой классный
Статья
Релиз русифицированной модели от sambanovasystems
Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback
модель
blog
Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.
Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.
Портал пока находится в стадии беты, но уже работает:
https://dateno.io/
Чат, ищу людей с опытом подачи на UK talent как человек из науки (ds не наука в этом контексте), если у вас есть такой опыт - вас очень ждёт @rerayne
Читать полностью…Очень важная инфографика на бенчамарках на 400 вопросах лежащих в опенсурс.
Ждём lmsys через пару недель, посмотрим.
Одна нейронка из предложения делает целый текст, другая по нему делает видео, третья пересказывает это видео в текст, четвертая сводит текст в предложение.
Напомните, почему мы этот уророборос выбрали?
Собственно, в подтверждение моим мыслям про groq вышел любопытный блогпост про экономику инференса.
- грок оптимизирован под latency, это возможно на железкаах Nvidia, но не очень экономически целесообразно
-текущие провайдеры LLM в лучшем случае имеют небольшую марж
Выводы:
-цена инференса вероятно не упадет заметно пока Nvidia монополист на рынке *pu
блог
Илон Маск предъявил иск к Сэму Альтману и группе OpenAI.
Основания для иска:
1/ Нарушение договора
2/ Promissory estoppel
3/ Нарушение фидуциарных обязательств
4/ Недобросовестная конкуренция
Интересные детали из иска и юридический разбор будут в этом канале в ближайшее время, а пока что прикладываю сам документ для вашего самостоятельного изучения.
Надо сказать, что Маска в этом деле представляют не его обычные юристы, а относительно небольшая юрфирма. Это говорит об оппортунистическим характере иска, например, чтобы получить информацию в рамках процесса discovery (мы как раз писали об этом в последнем посте из цикла #KrasExamination).
@buzko_hub
#чтивонаночь
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
Про RoPE слышали? короче у rotary эмбедов есть проблема - сколько учишь, столько получишь, учишь 2048 - будь добр не суй больше 2048, ppl порветься(ну точнее взорвется)
Rope обычный работает так что Kый токен будет притворяться токеном на позиции которые трансформер в оригинале видел. Конечно такой схематоз надо обучать, но куда без этого. К слову можно учить LoRA, так что все не так плохо.
Что же докидывают microsoft?
Они перебирают разные варианты возможных позиций и подсовывают в модель. Типа работает сильно лучше потому что это подобранная эвристика. Ну и соотвественно с названием это все можно скелйить в 2m токенов(если гпу на инференс хватит)
paper
кода нет, но обещают
Еще подход к оптимизации LLM трейна через копирование слоев с рлем
Раз в несколько итераций трейна спрашивем рльную полиси (маленький MLP) какой слой копирнуть в вышестойщий. В статье этот механизм называется "связыванием", он определяет, когда слои тренируются и копируются. В самом начале тренируется только первый слой. Со временем остальные слои размораживаются через копирование из нижестоящих или тренируются независимо от других (когда полиси сказала, чтобы он был завязан сам на себя). Так понял.
На входе (s) - вектор с размерностью количества слоев в ллмке, где на каждой позиции стоит минимальный индекс "связанного" слоя, с которого веса копируются (когда надо).
Сама полиси тренируется вместе с LLMкой.
reward = -perplexity на батче
Получили:
BERT тратит на 1 эпоху ~ 2 раза меньше времени
GPT2 в пике потребяла ~ 3 раза меньше памяти чем при обычном трейне, но учится чуть дольше
Dynamic Layer Tying for Parameter-Efficient Transformers
https://arxiv.org/abs/2401.12819
Проект Open Language Data Initiative, про который я рассказывал недавно, заведует не только тестовым датасетом FLORES+, но и обучающим датасетом NLLB-seed.
Это 6К предложений из английской Википедии на разнообразные темы, часто на какую-то сложную научную тематику. Мои коллеги в своё время организовали перевод этого датасета на 39 малоресурсных языков, и показали, что включение этих текстов в обучающий датасет для модели-переводчика значительно улучшает её качество.
Сейчас проект oldi.org принимает переводы этого датасета и на другие языки тоже. Но проблема в том, что кроме английского, этот датасет сейчас существует только на редких языках, переводить с которых будет ещё сложнее чем с английского (хотя для переводов на тюркские языки, наверное, можно подглядывать в крымскотатарскую версию).
Чтобы решить эту проблему, я сделал бота @crowd_translate_bot для сбора и проверки человеческих переводов* с английского на русский (с тем, чтобы потом с русского было проще переводить на другие языки нашего региона). Будет здорово, если воспользуетесь этим ботом и поучаствуете в коллективном переводе датасета 🙃
* Хотя многие модели уже очень хорошо переводят между английским и русским, важно собирать именно человеческие переводы, потому что это всё-таки чуть надёжнее, и потому, что если собрать переводы от нескольких людей, они будут разнообразнее по стилю, чем машинно переведёные.
Нас тут 2К в этом чате, и если каждый третий из нас переведёт по 10 предложений (и проверит где-то по 25, включая намайненные мной возможные переводы из Википедии и двойную проверку переводов других людей), то перевод NLLB-Seed на русский будет собран, и можно будет переходить к более интересным языкам.
Orca-Math: Unlocking the potential of SLMs in Grade School Math
Оказывается если затюнить модель на датасет очень похожий на test set, то модель будет лучше работать на test set. Данные в свою очередь надистилировали из gpt4 turbo.
Data
Папир
У меня есть несколько значительных апдейтов касательно AQLM:
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
Возможно в текущем виде lmsys уже недостаточен, субъективно claud3 > gpt4 turbo > gpt4
Читать полностью…проблема разнообразия ответов
если вы хотите косплеить дипмайнд и решать задачу LLMкой, но в стиле монтекарло, то вы упираетесь в одну простую проблему - количество уникальных адекватных вариантов которые генерит LMка на один и тот же запрос лежит в диапазоне от 10(для DPO) до 1000 (для отдельных aligment чекпоинтов).
и эта проблема будет вас приследовать вне зависимости от того насколько "хороша" ваша модель, такой юзкейс не распространен вне alpha* like задач
Принес вам реальные метрики Claude 3 vs GPT-4
Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.
А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
у нас есть эффективные архитектуры дома
эффективные архитектуры дома:
тут тихо релизнулась папира sd3, линк скинул @seeallochnaya
Релиз claudе3
- сота с отрывом 0.04 пункта по mmlu
- в целом почти по всем бенчам дотюнились до gpt4
Ссылка
(краткий пересказ введения к большой книжке Лейнстера "Entropy and diversity: The axiomatic approach" 2022)
Биоразнообразие кажется интуитивным понятием: много разных видов, чем их число больше, тем выше степень биоразнообразия. Но как быть с количественной мерой? Допустим, есть два сообщества A и B. С одной точки зрения, важно максимальное число представленных видов и не важно, насколько они распространены. С другой – важны только распространенные виды и их вклад. В зависимости от точки зрения, группа A или группа B будут считаться более разнообразными.
На самом деле, эти позиции – два противоположных конца континуального семейства однопараметрических мер биоразнообразия {D_q} для q in [0, infinity). Чем меньше значение q, тем больший вклад в биоразнообразие вносят редкие и малочисленные виды и наоборот.
Понятие биоразнообразия тесно связано с энтропией и фактически Шенноновская энтропия – это логарифм меры биоразнообразия D_1. Или, например, меры биоразнообразия D_q, известные в экологии как числа Хилла (Hill numbers), представляют собой экспоненты энтропии Реньи. Лейнстер доказывает, что числа Хилла – единственная мера биоразнообразия, обладающая natural properties в категорном смысле.
Кажется логичным, что помимо числа собственно представителей в сообществе, необходимо учитывать и их попарное подобие или генетическое родство. Существуют меры биоразнообразия, которые учитывают и это. Однако все они сводятся к мерам, связанным с энтропией Реньи, что также доказывается Лейнстером.
Современное животноводство активно использует антибиотики в производстве, порой неаккуратно, что приводит к появлению резистентной микрофлоры у домашнего скота. Высказывался ряд опасений, что появление таких резистентных бактерий может повлечь за собой эпидемии и среди людей, но Mather et al. показали, используя меры diversity для сравнения бактериальных семейств живущих с разными видами рядом, что резистентные Salmonella взятые у животных, вряд ли являются причиной резистентности у Salmonella живущих с человеком
ебала жаба гадюку
Маск подал в суд на Саму и опен аи, потому что схема работы openai крайне сложная и не похожа profit организацию
Да я в корпе просто так для души подрабатываю, так то у меня куча ресерч пропозалов
Читать полностью…чат, лень гуглить, подкиньте физические движки с питон апишкой чтобы катать шары, была простая soft body и можно было легко собрать логи(вектора, координаты и прочее)
а и желательно ++ бекенд или просто быстрый и без gilов
⚡⚡⚡Вот и статья про Sora пожаловала от OpenAI
(А точнее от Lehigh University и Microsoft Research)
Сделать разбор статьи о том, что внутри?
PDF
@complete_ai