nadlskom | Unsorted

Telegram-канал nadlskom - что-то на DL-ском

3653

Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsk Тг буст канала: https://t.me/nadlskom?boost Чат айтишниц: https://t.me/+n-WIEfhc3ZFhOGIy Реклама очень дорого.

Subscribe to a channel

что-то на DL-ском

PowerInfer, aka как гонять LLM-ки быстрее lamma.cpp (по крайней мере на Linux авторы демонстрируют заметное ускорение, чего нельзя пока сказать о Mac OS). Такой эффект происходит за счет предзагрузки на GPU только так называемых hot-activated нейронов, и расчета на CPU cold-activated нейронов. В общем то основная суть деления на такие холодные и горячие – это то, как при генерации активируются разные нейроны в трансформере исходя из входной последовательности токенов

🖥Репозиторий

Читать полностью…

что-то на DL-ском

Мы с корешами на защите проекта в школе:

Читать полностью…

что-то на DL-ском

Проект от Alibaba для примерки одежды на виртуальной модели. Нет ни тех деталей, ни кода, конечнО жЕЕЕЕ. Зато есть картинка и space на hf к которому можно ходить по API для своих проектов или нужд. Выглядит прям огонь по качеству

🤗space
🤓Blog (если конечно хотите просто почитать описание картинки словами)))

Читать полностью…

что-то на DL-ском

Пока все всполошились на moe mistral, и не задумываются о том как затюнить это мое в сумме 50b, я ожидаю новые способы сокращения обучаемых параметров уже на moe-tvoe, а пока поговорим за жессссткие вещи 😶‍🌫️

Нашла метод LASP, кторый позволяет учить CLIP в большее проявление zeroshot свойств, и включая только параметры подсказок. Получается так: берем soft prompts, но с ними есть проблема в мультимодальном dssm, потому что классы, которые уже встречались при обучении естественно будут превосходить по метрике классы, которые мы еще не встречали и сетка переобучиться. Если раньше с таким эффектом боролись с помощью KL, внедрения визуального представления в текст и других хаков, то в этот раз авторы предложили модифицировать лосс (text-to-text loss)

Общая идея в том, что можно подавать soft prompts, как мы делали бы изначально, затем после головы текстового энкодера не давать отклоняться выученным представлениям от бакета вручную написанных подсказок. При этом, мы можем разделять подсказки и формировать некоторые центроиды групп, которые будут обеспечивать zero-shot эффект и добавления виртуальных классов в обучение

🖥Код

Читать полностью…

что-то на DL-ском

Пост создан при поддержке того, что я задолбалась писать токен в ссылке копирования репозитория с гитхаба перед собачкой

@@@@@@ github , блин

We sent you a verification request on your GitHub Mobile app. Enter the digits shown below to enter sudo mode

Гитхаб, верни пароли🗿

Читать полностью…

что-то на DL-ском

LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [2023] - о том, как рекомендации превратили в ЕГЭ

Итак, какой пайплайн применения LLM для ранжирования придумали товарищи из NVIDIA:

1) Кандидатогенерация без LLM - сначала рекуррентная модель под названием LRURec кушает историю пользователя и в конце выдаёт распределение на следующий документ, из которого берётся топ-20. Обучается такая модель просто с помощью next item prediction.

2) На последней стадии работает уже языковая модель в формате теста.
В качестве промпта в модель подают список названий документов, с которыми взаимодействовал пользователь. Далее модель просят предсказать наилучший следующий документ.

Мы бы хотели получать от модели распределение на следующий документ, чтобы по нему можно было отсортировать выдачу, а также иметь возможность файнтюнить LLM, максимизируя вероятность верного айтема. Чтобы этого добиться, авторы кодируют каждый возможный айтем одной буквой. Таким образом, от модели требуется написать только 1 токен в качестве ответа, на вероятности которого мы и будем смотреть.

Имеет ли смысл применять такой подход в реальной рекомендательной системе? Давайте посмотрим, чем отличается данная нейросеть от того, что мы используем у нас. Если в нашем рекомендательном трансформере вместо мешка токенов будем брать их последовательность, и склеим все эти последовательности из истории в одну, мы получим такой же формат входа, как у LlamaRec. При этом сам трансформер от LLM на порядок больше, чем тот, что мы используем у нас.

Таким образом, подобная модель стала бы неподъёмной для использования на том же размере пользовательской истории, и её пришлось бы применять на очень короткой истории. Дало ли бы это значимый ортогональный сигнал засчёт претрейна на данных из интернета? Не знаю, на мой взгляд проект выглядит слишком дорого и есть много более низковисящих фруктов.

@knowledge_accumulator

Читать полностью…

что-то на DL-ском

Как человек, который некоторое время уже активно пытается заботать алгосы на собесы, очень рекомендую репу/курс

Понравилось, что есть краткая выжимка теории в тексте и сложность, чтобы не сидеть вечерами за просмотром получасовых видева

P.S. Главное помнить, что наименьшая сложность алгоритма при подходе «из центра-наружу»

Читать полностью…

что-то на DL-ском

PockEngine: ну че, будущее наступило, обучаем LLM на телефоне, емае 🤤

Работает за счет обрезки графа обратного распространения. При обычном обучении
фреймворки вычисляют все градиенты, а затем применяют обновление. Этот
характерно для таких фреймворков, как PyTorch и TensorFlow. PockEngine, в свою очередь, получает всю информацию о тензоре, а затем уже применяет обновление к наиболее важным частям

Занятно, что не проседает по скору

Очень интересно, подожду репу, а еще лучше пуш в условынй optimum 🤗

Читать полностью…

что-то на DL-ском

Занятная альтернатива prompt-tuning, апгрейд на бенчмарках GLUE и Super-GLUE. Понравилась работа из-за оценки схожести в эмбединговом пространстве множеств задач относительно друг друга

Теперь по-порядку: у prompt-tuning идея в том, что можно поставить виртуальные токены в начало и обучить только эту часть представлений.

Идея SPoT, а давайте не просто обучим, а сделаем некоторый codebook (как в vq-vae, но это условно, просто уж идея очень похожа). Как составить этот словарик? На ранних стадиях виртуальные токены берем, как значения эмбедингов задачи, а на лучшем чекпоинте (уже поучили), как source prompt (получаем словарь ключ – значение). При обучении, ищем самый близкий эмбединг задачи и настраиваем дальше его source prompt.

Смысл в том, что можно миксовать задачи и дообучать одну из другой, что судя по бенчам хорошо работает, а сам heatmap на третьем скрине

В общем-то еще один способ для мультитаска, а вот сам
🖥 код

Читать полностью…

что-то на DL-ском

Я думала, что последние 2 недели я буду постить очень много полезной инфы, потому что сама изучаю интересное (uplift ml, мультимодальные подходы к обучению и тд), но вместо этого дошла до ловушки интенсивного обучения того, что все темы для постов стали казаться заезженными.

Сегодня вспомнила наконец-то зачем создавался этот канал, и решила запостить старинную сетку 21 года по мультимодальной детекции. Пост для тех, кто только слышал про такое или давно хотел изучить. Так что давайте вместе со мной🥰

Если начинать издалека, детекция изображенпий обычно реализовывалсь с помощью сверточных нейронных сетей (RCNN, YOLO, SSD), но потом в CV начали постепенно приходить трансформеры, и жизнь заиграла новыми красками 👽

Возьмем сетку DETR. Берем backbone (как обычно в сетках детекции), только к трансформеру нас подводит positional encoding и весь цикл предсказания класса эмбеда изображения (эмбединг соответствует тому или иному заданному классу). В целом это работает, и мы получаем на выходе те же bounding box (см скрин 1)

Развитие индустрии не стояло на месте, и совмещение модальностей в задаче детекции было логическим продолжением DETR – MDETR

В MDETR, мы делаем все то же самое, только к эмбедам картинки мы конкатенируем эмбеды текста и прогоняем все через трансформер. Но что получим на выходе? Loss составной, но все части по сути – cross entropy. В первом случае высчитываем схожесть эмбединга текста с эмбедингом картинки, а в другом считаем тот самый DETR loss с принадлежностью классов к боксу.

Это кончено классно, но поговорили мы только про pretrain. Есть же и downstream таски, из которых особый интерес представляет из себя – QA по изображению. Неочевидно с первого взгляда, но авторы и здесь нашли довольно простое решение — конкатенация эмбединга, как в претрэне, с эмбедингом вопроса. И вот, вероятность ответа уже на выходе трансформера (важно посмотреть скрин 4)

Вообще, я в восхищении, особенно от идеи, что сюда прикручивают и video swin transformer, и все это великолепие способно работать еще и с видео😍

Читать полностью…

что-то на DL-ском

Spinning Up in Deep RL - мини-курс от OpenAI

Думаю, стоит написать про этот мини-курс отдельным постом, так как вещь хорошая, я его еще в 2019 проходил. Курс дает неплохую базу по наиболее популярным RL алгоритмам и есть даже секци "Как стать Deep RL ресерчером" со списком важнейших статей по RL.

❱❱ По курсу есть одна огромная видео-лекция на 3 часа:

25:11 Opening & Intro to RL, Part 1, by Joshua Achiam
1:48:42 Intro to RL, Part 2, by Joshua Achiam
2:26:26 Learning Dexterity, by Matthias Plappert
2:58:00 AI Safety: An Introduction, by Dario Amodei

❱❱ Сам курс: тык

@ai_newz

Читать полностью…

что-то на DL-ском

В очередной раз осознала, сколько материалов для изучения у меня накопилось за последнее время. На этот раз – это диффузионки. Хочу опять сделать мини-роудмеп по изучению БАЗЫ base (тем более этот формат всегда находит много отклика)

Так вот, начну просто с блогпостов, которые дают неплохое понимание базовым вещам и хронологии развития событий в этой теме

1. Вот этот пост на habr очень обширный, начинает повествование аж с VAE и GAN-ов, а не сразу бросает в пекло
2. Здесь на medium можно почитать почти ту же информацию, но с иной подачей
3. Так как встретилось понятие Classifier-Free Guidance, на habr есть отличное интуитивное объяснение тому, что происходит
4. Почему бы не почитать поподробнее про интуицию шедулеров (это не единственное, что описано, но выделилось в моем сознании, как самый хороший абзац)
5. Ну и конечно, как без Jay Alammar и описаний с изображениями о работе stable diffusion (самый лучший источник, все в визуализациях и супер понятно)

Дальше, можно пойти в практику и протыкать+почитать курс от diffusers на huggingface

Дальше, для того, чтобы понимать более низкоуровнего (на голом torch уже довольно низкоуровнего😬), можно сходить в 5-часовой видос-гайд, как написать stable diffusion с 0 и к нему репа

Парочку статей, чтобы окунуться в Вайб мохнатых годов вникнуть поглубже:

💛Diffusion Models Beat GANs on Image Synthesis
💛Denoising Diffusion Probabilistic Models
💛Denoising Diffusion Implicit Models
💛CLASSIFIER-FREE DIFFUSION GUIDANCE
💛Improved Denoising Diffusion Probabilistic Models
💛DALL-E 2
💛Stable Diffusion
💛Kandinsky

Если забыла какую-то базу на ваш взгляд, обязательно го в комменты☺️

Читать полностью…

что-то на DL-ском

Я очень ждала запись, так как не могла быть на эфире, залетай смотреть вместе со мной

Читать полностью…

что-то на DL-ском

Ошибся комнатой и случайно зашел на чужой колл — там лид проводит какой-то мит и говорит:
- друзья, ну, неделя подходит к концу, так что давайте не будем напрягаться…

Вторник.

Читать полностью…

что-то на DL-ском

в этом университете проходят только 1 тип энкодеров? 🤔

Читать полностью…

что-то на DL-ском

Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳

Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.

Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)

Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)

НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)

🖥Еще раз. Код весь туть

Читать полностью…

что-то на DL-ском

Apple выложили код к обучению их трансформера с измененной параметризацией весов для достижения стабильной энтропии на каждом слое внимания.

Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))

🤓Статья (аларм, много формул)
😆Дискорд, через который генерила картинку

Читать полностью…

что-то на DL-ском

Спустя три месяца (!) Вышел скейл phi1.5 - phi2.


Теперь 2.7В(было 1.5) параметров, перфоманс на бенчах лучше мистраля и лучше 13В моделей, возможно выйдет папир и я напишу нормальный обзор.

alexwortega/4zOWNoaoXeq">Обзор на phi1.5

Model

Читать полностью…

что-то на DL-ском

Интересное решение по генерации продолжения 3д сцен LucidDreamer использованием Гауссова сплэтинга и SD. Может и по тексту, и по RGB, и по RGBD. Короче, из всего, по чему пожелаете. Вот до чего дошел прогресс... 🤖

Что такое вообще этот ваш 3д Гауссов сплэтинг?

Если кратко, то это метод растеризации. У нас есть данные, описывающие сцену и мы ее отображаем в виде множества гауссиан, они сортируются по глубине и для каждого выполняется front-to-back, при этом гауссианы смешиваются друг с другом. На выходе сцена. На эту тему можно посмотреть видос. Ну и еще неплохой пост на hf

Как работает полный пайплайн в статье?

👉На первом этапе создается облако точек из входного изображения, для продолжения сцен используется Stable Diffusion inpainting и монокулярная оценка глубины(то есть оценка расстояния относительно камеры каждого пикселя для одного (монокулярного) RGB-изображения).
👉После этого, используются алгоритмы ‘Dreaming’1️⃣ (устанавливает облако точек в качестве геометрического ориентира для каждого поколения изображений) и ‘Alignment’2️⃣ (гармонично интегрирует сгенерированные изображения в единую 3D-сцену).

1️⃣ В ‘Dreaming’ оценивается оптимальный коэффициент для минимизации расстояния между 3д точками сгенерированного изображения и исходного, чтобы создать карту глубины. На основе этого "поднимаются" пиксели в 3д пространство
2️⃣ В ‘Alignment’ вычисляется вектор перемещения, но из-за наивного подхода точки из облака точек могут могут не совпадать с нарисованным изображением. Но это решается с помощью ограничения на перемещение точек и использование алгоритма интерполяции.

👉Затем, пустые пространства заполняются с помощью Gaussian splats (про это говорили в начале) в случае несоответствия глубины. (Обучаем на сгенерированом облаке точек и исходных изображениях). Что интересно, позволяет менять входные данные в процессе генерации. На выходе получаем 3д сцену неплохого качества 😳

🖥их блогпост, обещают код

Читать полностью…

что-то на DL-ском

работа со стартапом из кремниевой долины чек:

- CTO дропаут из стенфорда, скорее всего младше тебя. говорят, умеет в фит-предикт
- инновационная разработка имеет мало общего с наукой. просто почему-то получилось
- аутсорс на ребятах из СНГ
- почему мы решили делать так? а мы просто believe so
- документация для лохов
- аутсорс на индийских ребятах
- после встречи присылаешь картинки с иллюстрацией подходов, про которые ты распинался, потому что так понятнее СТО
- в штате есть mle с опытом 30+ лет (Can you change the username on that AWS machine from “ubuntu” to my name? All my absolute paths in all my projects are broken because of this 👉🏻👈🏻)
- огромные счета за с3, который не заполнен даже наполовину
- при этом отчитываешься за использование гпу, где один час выходит 2-3 доллара
- никто не должен знать, какая модель от OpenAI лежит в основе всего решения
- метрики без хьюман эвала тоже для лохов
- ты прокачался в английском
- ты прокачался в лизании жопы вежливых дипломатичных ответах в письменном английском
- все жалеют юного СТО, потому что верят в продукт
- через год ты всё это повторишь, потому что “да ладно, не так плохо всё было”

Читать полностью…

что-то на DL-ском

NoPE: лучший позишн энкодинг — это тот, которого нет

Правда ли, что позиционное кодирование критически необходимо трансформерам? Оказывается, это справедливо только для энкодеров, а вот декодеры (GPT, LLaMA и тд) могут прекрасно работать и без него!

Похоже, что каузальные маски внимания (которые не позволяют заглядывать в правый контекст) сами по себе являются отличным источником информации о позиции токенов. И более того, трансформер БЕЗ позиционного кодирования лучше обобщается на размер контекста, выходящий за длину примеров из обучения, даже по сравнению с такими мудрёными методами, как Rotary или ALiBi.

P.S. Eсли вас на собеседовании спросят зачем нужнен позишн энкодинг в GPT — можете говорить, что не особо он и нужен 💁‍♂️

Статья, GitHub

Читать полностью…

что-то на DL-ском

Классический пример того, как собрать готовые модели вместе и получить занятный продукт: ChatAnything

Не с кем поговорить по вечерам? аниме надоело? девушки и друзей нет? Тогда оживляем персонажа по промпту и можно болтать. По текстовому описанию или фотографии создает аватара, с которым можно общаться обычными сообщениями или голосом. Аватар будет отвечать и двигаться 🤯

Что внутри?

1. LLM-based control module. Инициализирует личность описанного в тексте персонажа по ключевым словам, а также подберает диффузионого эксперта. Также лмка внутри отвечает на сообщения собеседника
2. A portrait initializer, который генерирует изображение для персонажа(смесь файтюненных диффузий(MoD) с LoRAми, здесь используются некоторые из моделей, такие как Game Iconinstitutemode, anythingv5, dreamshaper, 3D Animation Diffusion на базе stable-diffusion-v1-5). Также, используется Face-Landmark-Controlnet. Что интересно, подбирает стиль аватару автоматически
3. Микс TTS(MOV). После преобразования text-to-speech, голос синтезируется с помощью Voice-Changer. И также подбирается под заданного пользователем персонажа автоматически на этапе инициализации!!
4. A Motion generation module, который принимает речевой сигнал и формирует изображение. В данной работе используется фреймворк SadTalker для "эффекта говорящей головы" и pre-trained face keypoint detector для определения ключевых точек лица.

🖥Код

Читать полностью…

что-то на DL-ском

Не так давно видела замечательный обзор статьи в одном из каналов. Суть работы в том, что чуваки сделали прунинг сетки с помощью предсказания маленького классификатора (отключаем то, что предсказано на данном шаге). В то время, как классическим исследования прунинга для LM была гипотеза лотерейных билетов (отключали параметры без каких-либо правил, переодически выигрывали в качестве). Потом пришли к ряду методов по типу child-tuning (отключаем по статистическим оценкам). Сейчас от величин описательной статистики, которые подразумевают под собой сводку правил для управления методами обучением, мы переходим к простеньким классификаторам. И это логично, потому что понять правила отключения параметров мы не можем, а когда мы не можем понять зависимость, надо применять ИИ, которое тоже хз как работает )).

В общем то, в моем понимании очень перспективно принимать решения для обучения на сводке правил, если понимаем характер зависимостей и простенькие MLP, если не понимаем, когда и что включать

Да и уже давно индустрия не теряет возможности внедрить помощь ИИ для улучшения самого ИИ.

Примеры:
💛 Синтетическая разметка, чистка данных, как в phi-1.5
💛 DALLE 2 . Когда, самой моделью подбирают гиперпараметры и проводят eval.
💛 BLIP caption-ы для картинок собирали уже давно. Просто отфильтруйте на hf в разделе datasets по слову blip, там с 22 года накопилось очень много таких датасетов
И многое другое

Думала я обо всем этом и наткнулась на интересный метод UNIPELT, который как раз включает PEFT методы на основе линейных слоев. Понятное дело бенч выше, чем у методов, которые работают в одиночку, но это еще не все. Взяли для экспериментов: LoRA, Prefix-tuning, адаптеры и BitFit. И больше всего меня заинтересовали выводы, которые были сделаны после экспериментов включения той или иной части:

🅰️ Адаптеры достаточно стабильно держат метрику качества при любых задачах, но не превосходят настройку всей модели этого же размера. Делаем выводы, что можно взять всегда модель побольше, но уместить ее на карте с адаптером, тогда будет выигрыш относительно маленького размера

🔠 Рассматриваем prefix-tuning. Неплохо себя показывается длина префикса в границах от 100 до 500, но если ставим 1000, результаты метрики становятся больше дообучения всей модели!!!

🅱️ BitFit вообще убрали из эксперимента из-за плохого качества в их сетапе. Неужели результативность BitFit в оригинальной статье – это просто черепикнутые примеры?🤔

🔠 LoRA может превосходить адаптер на многих задачах, еще и зажирать меньше параметров, но на QQP и STS-B метрика намного ниже конкурентных методов PEFT. С чем связано? Возможно в матрицах низкого ранга утеряны важные параметры модели

🖥Код

Читать полностью…

что-то на DL-ском

Luma представили Genie, модель для генерации 3D в дискорде.

Выбираем любую ветку #genie и пишем /genie промт. Превью из 4 вариантов генерится за секунды, им можно поделиться по ссылке для детального рассмотрения, и поиграться с цветом/материалом. Понравившийся в превью вариант можно послать на детальную обработку нажав Refine в дискорде (отобразится в ветке #genie-refine), и далее скачать 3D модельку в .glb, чтобы закинуть в Blender или куда ещё.

Фича бесплатная на время, так что не щёлкаем.

Читать полностью…

что-то на DL-ском

Истории из моей жизни, о которых невозможно молчать.

— Девушка, выбирали Python потому что он самый популярный?

— Нет, потому что мой знак зодиака в китайском гороскопе – змея

Читать полностью…

что-то на DL-ском

Классный курс от openAI, на который обязательно хочется сходить, учитывая успехи корпорации в этой сфере

У меня, как у любого человека, есть прям отдельные фавориты телеграмм каналов по ML, редко читаю какие-то еще тематики, так как на прочтение всего-всего нужно не мало времени🥲. @ai_newz – один из таких фаворитов. Нередко нахожу в нем новости, которые не публиковались нигде, или мое внимание на них просто не цеплялось, но публикует автор достаточно быстро

📝Если будет запрос, могу сделать список своих любимых ml-ных каналов, так как мой личный критерий качества – это разнообразный контент и образовательная польза, которую я не могу найти нигде еще

Читать полностью…

что-то на DL-ском

Все медленные процессы проперлись, толстовка доехала до автора лекции, а видео доехало до youtube!
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p

Читать полностью…

что-то на DL-ском

Занятная статья по всем параметрам, а вышла еще в 21 году😯. Во-первых, поднимается вопрос исследования встраивания эмбедингов, во-вторых, перенос с одного языка на другой, в-третьих, уменьшение количества параметров при тренировке, так еще и вдовесок "как эффективно уменьшить количество параметров, не потеряв качество"

Прогрев закончен, я начну. Во-первых авторы для исследования берут encoder-decoder для решения проблем задач перевода, но мы мыслим глубже😵 и проецируем на архитектуры, которые тоже содержат кроссэтеншен (вся соль статьи вокруг него). Например, можно вспомнить о том, что мультимодалка завязана на этом механизме 😳

Так вот, авторы эксперементально доказывают, что метрика остается почти на одном уровне при обучении связки эмбединги + кросэттенш и всей модели целиком (см скрин 1). Но это еще далеко не все🤪, далее начинается, пожалуй, самая интересная часть эксперимента. Они берут слова на одном языке (например немецком), переводят их в эмбединги, а потом смотрят, какой французский эмбединг больше всего похож на немецкий. Если такая пара слов (немецкое и французское) есть в уже готовом словаре MUSE (назовем золотым стандартом) , они считают, что их метод работает.

См скрин 2, где accuracy - это просто доля правильных пар слов. Например, если из 100 проверенных пар слов 55 есть в словаре MUSE, то точность индукции - 55%

Из всей статьи напрашиваются просто замечательные выводы:
При тюне кросэтеншена и слоя эмбедингов можно уменьшить количество параметров модели; Вторая часть эксперемента плавно подводит к устранению забывчивости модели при таком тюне

🖥 ну а в коде можно найти пару лайфхаков для инициализации нового языка в модели

P.S. Активно слежу за событиями последних дней, надеюсь на мир во всем мире и что у вас все хорошо 💛💛💛🇮🇱

Читать полностью…

что-то на DL-ском

Тарелка(гречка*|салат(помидоры, огурцы))

Фуххх, как же хорошо, что я тоже передаю всю информацию по жизни только в формулах😰, ведь если написать, что промпт содержит таблицу и вопрос никто не поймет

Читать полностью…

что-то на DL-ском

Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥

Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли.

Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained.

https://x.com/younesbelkada/status/1705258148045750343

Читать полностью…
Subscribe to a channel