Telegram-канал nadlskom - что-то на DL-ском: Unsorted

что-то на DL-ском

20 May 2024 14:32

Основано на боли 😢

что-то на DL-ском

18 May 2024 16:25

Наверняка все читали в какой-нибудь базе по типу scaling laws о том, что слишком маленькой моделе нельзя скармливать слишком много токенов при обучении, так как качество начнет падать. Эта задача оказывается называется «softmax bottleneck». Впервые проблема поднимается в статье 2018 года.

В LM есть финальный слой, который преобразует внутренние представления текста в распределение вероятностей для следующего слова. Этот слой представляет собой матрицу весов, которая умножается на вектор внутренних представлений.

Оказалось, что по мере обучения распределение сингулярных значений этой матрицы весов (своего рода масштабы, характеризующие матрицу) начинает выравниваться. То есть все сингулярные значения становятся примерно одинаковыми.

Но затем, для небольших моделей, это распределение резко меняется - появляется одно очень большое сингулярное значение, а остальные становятся маленькими. И это совпадает с тем моментом, когда качество модели перестает улучшаться.

Авторы работы предположили, что это связано с фундаментальным ограничением размерности языковых данных. Они попытались оценить, какой максимальный "ранг" (связанный с числом больших сингулярных значений) может иметь эта финальная матрица весов.

Для этого они поставили обучение с ограниченным рангом на фиксированных внутренних представлениях от больших предобученных моделей.

💐Оказалось, что качество сильно падает, если ранг слишком мал (<1000). Вот и новый вектор исследования для индустрии. Может «убийцей трансформера» сможет стать именно архитектура, которая преодолевает ограниченность внутренней размерности?🤔

📖Статья Why do small language models underperform? Studying LM Saturation via the Softmax Bottleneck