Falcon 7B（Falcon 7B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

Falcon 7B - Falcon 7B

模型详细情况和参数

Falcon 7B

模型全称: Falcon 7B
模型简称: Falcon 7B
模型类型: 基础大模型
发布日期: 2023-04-24
预训练文件大小: 14.33GB
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 70.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: 暂无
模型HuggingFace链接: https://huggingface.co/tiiuae/falcon-7b
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: 暂无
基础模型: 无基础模型
发布机构: The Technology Innovation Institute

Falcon 7B 简介

Falcon-7B是由TII开发的一种7B参数的因果解码器模型，它在RefinedWeb上训练了1,500B个令牌，RefinedWeb是一个经过筛选和去重的高质量网络数据集，TII还在其中增加了精选的语料库。Falcon-7B的许可证是TII Falcon LLM License，允许商业使用。

模型的特点包括：

性能优越：Falcon-7B超过了相似的开源模型（例如，MPT-7B、StableLM、RedPajama等），这得益于它在1,500B令牌的RefinedWeb上进行了训练，这个数据集还增加了精选的语料库。具体的性能可以在OpenLLM Leaderboard上查看。
优化的架构：Falcon-7B采用了优化的架构，包括FlashAttention（Dao等人，2022年）和multiquery（Shazeer等人，2019年）。
适用于商业使用：Falcon-7B的许可证允许商业使用。
预训练模型：Falcon-7B是一个原始的预训练模型，应该进一步微调以适应大多数用例。

模型的训练细节

Falcon-7B在384个A100 40GB GPUs上进行训练，使用了2D并行策略（PP=2，DP=192）和ZeRO。训练开始于2023年3月初，持续了大约两周。

模型的技术规格：

Falcon-7B是一个因果解码器模型，训练任务是因果语言建模（即预测下一个令牌）。它的架构主要参考了GPT-3论文（Brown等人，2020年），但有以下区别：

位置嵌入：旋转（Su等人，2021年）；
注意力：multiquery（Shazeer等人，2019年）和FlashAttention（Dao等人，2022年）；
解码器块：并行注意力/MLP，带有单层规范。

Falcon-7B在AWS SageMaker上进行训练，使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库，Gigatron，它使用了3D并行方法，结合了ZeRO和高性能的Triton内核（FlashAttention等）。

许可证

Falcon-7B在TII Falcon LLM License下提供。大致来说，你可以自由地用我们的模型进行研究和/或个人目的；你可以分享和构建这些模型的衍生物，但你需要给出归因，并以相同的许可证分享；对于商业用途，如果可归因的收入低于每年1M美元，你可以免除版税支付，否则你应该与TII签订商业协议。