Telegram-канал grokaem_seby - grokaem себя: Unsorted

grokaem себя

11 Apr 2024 21:05

#grokaem_nlp

Mixture of Depths (MoD)
paper

Уже в парочке каналов написали про новую статью, го и мы пройдемся.

🪀basic idea behind - нечего считать attention на всех слоях на всех токенах, если можно не считать🪀MoD - это как MOE, только используем не mutliple experts, а одного, которого можем скипнуть (skip connection)!

🪀pipeline:
На каждом слое self-attention выбираем k токенов для обновления. Эмбеддинги только этих токенов будут участвовать в подсчете и обновляться, так как это self-attention, внимание для обновления других эмбеддингов будет также только от этих k.

Этот подход относится к conditional computation - использовать compute только когда надо. Иначе можно делать early exiting или использовать адаптеры, чтобы находить skip блоки.

🪀Что нужно от нас:
- выставить capacity - количество токенов для topk
- делать causal lm - выбор topk это non casual операция, почему? Потому что используются все токены. Одно из решений для router - штуки, которая и выбирает токены - базово заменить softmax на sigmoid. А именно - мы добавляем либо auxiliary задачу, либо auxiliary loss, который будет пытаться выучиться сам на нужную подзадачу. Для нас эта задача - понять, что токен должен быть в top k без мам пап и других токенов, то есть через сигмойду. Хорошее объяснение по таймкоду.

🪀Важные штуки:
- граф подсчета не динамический, то есть мы заранее выставили k - worst case scenario
- в gradient path подключаются веса router, как раз те, по которым мы выбрали k токенов (p. 7)
- лучше сработал вариант вставки MOD каждые два слоя с доступом только к 12.5% токенов, то есть пред слой видел все

🪀Глоссарий:
- FLOP - floating point operations per second. FLOP будет уменьшаться квадратично, если T - исходное кол-о, attention FLOP T'2, возьмем половину токенов для обновления T/2, attention будет (T/2)'2 или 0.25 FLOP intense
- Iso-FLOP - количество компьюта для подсчета в FLOP, чтобы натренировать модель

Круто, когда isoFLOP остается таким же, но мы при этом увеличиваем кол-о параметров. Это как раз наш кейс.

🪀Что с этим всем можно делать дальше?
Ну тут понеслась душа в рай, и long term memory tokens можем сделать, и какие-то только как keys использовать, и вместо identity function придумать разные под каждый кейс.

——
Ну и мы тут не просто так собрались, представим, что вы на собесе и сказали, что недавно прочитали эту статью и вам в ответку прилетает вопрос: почему не используют top p? Ваши действия в комментариях.