模型详细情况和参数
--------------------------2023年6月1日更新----------------------------
最新的Falcon系列模型抛弃了原有的模型税的开源协议,全部采用apache 2.0开源协议,完全开源!
--------------------------2023年6月1日更新----------------------------
关于Falcon-40B详细信息参考: https://www.datalearner.com/blog/1051685195573122
Falcon-40B是由TII开发的一种40B参数的因果解码器模型,它在RefinedWeb上训练了1,000B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。Falcon-40B的许可证是TII Falcon LLM License,允许商业使用。
模型的特点包括:
Falcon-40B在384个A100 40GB GPUs上进行训练,使用了3D并行策略(TP=8,PP=4,DP=12)和ZeRO。训练开始于2022年12月,持续了两个月。
模型的技术规格:
Falcon-40B是一个因果解码器模型,训练任务是因果语言建模(即预测下一个令牌)。它的架构主要参考了GPT-3论文(Brown等人,2020年),但有以下区别:
Falcon-40B在AWS SageMaker上进行训练,使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库,Gigatron,它使用了3D并行方法,结合了ZeRO和高性能的Triton内核(FlashAttention等)。
Falcon-40B在TII Falcon LLM License下提供。大致来说,你可以自由地用我们的模型进行研究和/或个人目的;你可以分享和构建这些模型的衍生物,但你需要给出归因,并以相同的许可证分享;对于商业用途,如果可归因的收入低于每年1M美元,你可以免除版税支付,否则你应该与TII签订商业合同。
上述模型协议已经被取消,改成了Apache 2.0开源协议!参考官方宣布: https://www.tii.ae/news/uaes-falcon-40b-now-royalty-free