Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

13 March 2026 11:07

Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4. Эта версия конкретно заточена на Blackwell (B200, GB200), старая версия с заточкой на Hopper на новой архитектуре работает сильно субоптимально. Интересные особенности Blackwell в том, что архитектура очень неровно масштабировалась с предыдущих поколений, теперь матричные/тензорные модули уже не самое узкое место, им стала "обычная" математика.

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling
Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao
Статья: https://arxiv.org/abs/2603.05451
Код: https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute
Ревью: https://arxiviq.substack.com/p/flashattention-4-algorithm-and-kernel

# TL;DR

ЧТО сделали: Авторы представили совместный аппаратно-программный дизайн алгоритма для вычисления точного внимания, оптимизированный специально под архитектуру NVIDIA Blackwell. Метод вводит программную эмуляцию экспоненциальных функций, условное масштабирование софтмакса и новый подход к использованию тензорных ядер через 2-CTA, чтобы обойти аппаратные блоки, которые не масштабируются так же быстро, как сырые вычислительные мощности для матричного умножения.

ПОЧЕМУ это важно: Железо датацентров сейчас переживает экстремальное асимметричное масштабирование. Поскольку тензорные ядра в Blackwell более чем в два раза быстрее предыдущего поколения, а пропускная способность памяти и блоки вычисления экспонент застряли на месте, старые алгоритмы оставляют огромные вычислительные мощности простаивать. Тщательно перестроив математику под физический пайплайн, этот подход достигает 1613 TFLOPs/s, закладывая необходимый фундамент для эффективного деплоя моделей с длинным контекстом на кластерах следующего поколения.

Оптимизировать тут: /channel/gonzo_ML_podcasts/2732