FlashAttention论文的官方实现,GPT加速推理神器~
FlashAttention是一种快速运行且节省内存的注意力算法,无需任何近似。它旨在通过最小化内存读写次数来加速核心注意力计算。FlashAttention被用作Nvidia的FasterTransformer(一种最先进的Transformer推理库)的组件,以加速GPT推理。它还被用于加速Diffusers库中的Stable Diffusion,将吞吐量提高了4倍以上,超过了未经优化的diffusers版本。
是否开源: 是
许可协议: BSD-3-Clause license
官方地址: https://github.com/HazyResearch/flash-attention
GitHub地址: https://github.com/HazyResearch/flash-attention
初始贡献者: BSD-3-Clause license
https://github.com/HazyResearch/flash-attention
TensorFlow - 深度学习
MindSpore - 深度学习