模型详细情况和参数
Falcon-7B是由TII开发的一种7B参数的因果解码器模型,它在RefinedWeb上训练了1,500B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。Falcon-7B的许可证是TII Falcon LLM License,允许商业使用。
模型的特点包括:
Falcon-7B在384个A100 40GB GPUs上进行训练,使用了2D并行策略(PP=2,DP=192)和ZeRO。训练开始于2023年3月初,持续了大约两周。
模型的技术规格:
Falcon-7B是一个因果解码器模型,训练任务是因果语言建模(即预测下一个令牌)。它的架构主要参考了GPT-3论文(Brown等人,2020年),但有以下区别:
Falcon-7B在AWS SageMaker上进行训练,使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库,Gigatron,它使用了3D并行方法,结合了ZeRO和高性能的Triton内核(FlashAttention等)。
Falcon-7B在TII Falcon LLM License下提供。大致来说,你可以自由地用我们的模型进行研究和/或个人目的;你可以分享和构建这些模型的衍生物,但你需要给出归因,并以相同的许可证分享;对于商业用途,如果可归因的收入低于每年1M美元,你可以免除版税支付,否则你应该与TII签订商业协议。