Fa

Falcon 7B

基础大模型

Falcon 7B

发布时间: 2023-04-24

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-04-24

模型预文件大小

14.33GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Falcon 7B模型在各大评测榜单的评分

发布机构

The Technology Innovation Institute
The Technology Innovation Institute
查看发布机构详情

模型介绍

Falcon-7B是由TII开发的一种7B参数的因果解码器模型,它在RefinedWeb上训练了1,500B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。Falcon-7B的许可证是TII Falcon LLM License,允许商业使用。

模型的特点包括:

  1. 性能优越:Falcon-7B超过了相似的开源模型(例如,MPT-7B、StableLM、RedPajama等),这得益于它在1,500B令牌的RefinedWeb上进行了训练,这个数据集还增加了精选的语料库。具体的性能可以在OpenLLM Leaderboard上查看。
  2. 优化的架构:Falcon-7B采用了优化的架构,包括FlashAttention(Dao等人,2022年)和multiquery(Shazeer等人,2019年)。
  3. 适用于商业使用:Falcon-7B的许可证允许商业使用。
  4. 预训练模型:Falcon-7B是一个原始的预训练模型,应该进一步微调以适应大多数用例。
模型的训练细节

Falcon-7B在384个A100 40GB GPUs上进行训练,使用了2D并行策略(PP=2,DP=192)和ZeRO。训练开始于2023年3月初,持续了大约两周。

模型的技术规格:

Falcon-7B是一个因果解码器模型,训练任务是因果语言建模(即预测下一个令牌)。它的架构主要参考了GPT-3论文(Brown等人,2020年),但有以下区别:

  • 位置嵌入:旋转(Su等人,2021年);
  • 注意力:multiquery(Shazeer等人,2019年)和FlashAttention(Dao等人,2022年);
  • 解码器块:并行注意力/MLP,带有单层规范。

Falcon-7B在AWS SageMaker上进行训练,使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库,Gigatron,它使用了3D并行方法,结合了ZeRO和高性能的Triton内核(FlashAttention等)。


许可证

Falcon-7B在TII Falcon LLM License下提供。大致来说,你可以自由地用我们的模型进行研究和/或个人目的;你可以分享和构建这些模型的衍生物,但你需要给出归因,并以相同的许可证分享;对于商业用途,如果可归因的收入低于每年1M美元,你可以免除版税支付,否则你应该与TII签订商业协议。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat