Falcon 7B - Falcon 7B

模型详细情况和参数

Falcon 7B

模型全称
Falcon 7B
模型简称
Falcon 7B
模型类型
基础大模型
发布日期
2023-04-24
预训练文件大小
14.33GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
70.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
https://huggingface.co/tiiuae/falcon-7b
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
暂无
基础模型
无基础模型

Falcon 7B 简介

Falcon-7B是由TII开发的一种7B参数的因果解码器模型,它在RefinedWeb上训练了1,500B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。Falcon-7B的许可证是TII Falcon LLM License,允许商业使用。

模型的特点包括:

  1. 性能优越:Falcon-7B超过了相似的开源模型(例如,MPT-7B、StableLM、RedPajama等),这得益于它在1,500B令牌的RefinedWeb上进行了训练,这个数据集还增加了精选的语料库。具体的性能可以在OpenLLM Leaderboard上查看。
  2. 优化的架构:Falcon-7B采用了优化的架构,包括FlashAttention(Dao等人,2022年)和multiquery(Shazeer等人,2019年)。
  3. 适用于商业使用:Falcon-7B的许可证允许商业使用。
  4. 预训练模型:Falcon-7B是一个原始的预训练模型,应该进一步微调以适应大多数用例。
模型的训练细节

Falcon-7B在384个A100 40GB GPUs上进行训练,使用了2D并行策略(PP=2,DP=192)和ZeRO。训练开始于2023年3月初,持续了大约两周。

模型的技术规格:

Falcon-7B是一个因果解码器模型,训练任务是因果语言建模(即预测下一个令牌)。它的架构主要参考了GPT-3论文(Brown等人,2020年),但有以下区别:

  • 位置嵌入:旋转(Su等人,2021年);
  • 注意力:multiquery(Shazeer等人,2019年)和FlashAttention(Dao等人,2022年);
  • 解码器块:并行注意力/MLP,带有单层规范。

Falcon-7B在AWS SageMaker上进行训练,使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库,Gigatron,它使用了3D并行方法,结合了ZeRO和高性能的Triton内核(FlashAttention等)。


许可证

Falcon-7B在TII Falcon LLM License下提供。大致来说,你可以自由地用我们的模型进行研究和/或个人目的;你可以分享和构建这些模型的衍生物,但你需要给出归因,并以相同的许可证分享;对于商业用途,如果可归因的收入低于每年1M美元,你可以免除版税支付,否则你应该与TII签订商业协议。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Falcon 7B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Falcon 7B相关的任务
问答系统

问答系统

Question Answering

35个资源