FlashAttention

FlashAttention论文的官方实现,GPT加速推理神器~

python/c++
个人
深度学习
初始发布时间:2020-1
工具描述

FlashAttention是一种快速运行且节省内存的注意力算法,无需任何近似。它旨在通过最小化内存读写次数来加速核心注意力计算。FlashAttention被用作Nvidia的FasterTransformer(一种最先进的Transformer推理库)的组件,以加速GPT推理。它还被用于加速Diffusers库中的Stable Diffusion,将吞吐量提高了4倍以上,超过了未经优化的diffusers版本。

是否开源:

许可协议: BSD-3-Clause license

官方地址: https://github.com/HazyResearch/flash-attention

GitHub地址: https://github.com/HazyResearch/flash-attention

初始贡献者: BSD-3-Clause license

最佳实践指南

https://github.com/HazyResearch/flash-attention

个人-logo
pytorch-logo
推荐工具

TensorFlow - 深度学习

MindSpore - 深度学习