Falcon是TII发布的一个完全开源可商用的大语言模型,其效果在HuggingFace的Open LLM Leaderboard排名第一!
模型发布时间: 2023-06-25
模型发布机构: The Technology Innovation Institute
模型所属类型: 自然语言处理
模型官方地址: https://huggingface.co/blog/falcon
Falcon是TII发布的一个完全开源可商用的大语言模型。TII全称The Technology Innovation Institute,是由阿布扎比政府资助的研究机构,属于阿布扎比政府高级科技研究委员会的一部分。
Falcon系列模型是在RefinedWeb数据集上训练的大语言模型。RefinedWeb数据集是基于CommonCrawl构建的高质量数据集,包含了经过去重和过滤后得到的包含上万亿tokens的数据集。同时Falcon模型还基于RefinedWeb之外的论文等数据集做了进一步训练。
Falcon系列模型包含2类,一种是基础大语言模型,适合对特定领域任务做微调来适配下游任务,另一种是针对指令微调的版本,适合应用在对话机器人中,但是不适合继续微调。Falcon最早在2023年4月份就发布了2个规模较小的模型,5月份又发布了300亿参数规模和70亿参数规模的模型,目前共包含6个模型。
模型名称 | 模型类型 | 参数大小 | 训练的tokens数 | 模型卡链接 |
---|---|---|---|---|
Falcon-40B | 基础大语言模型 | 400亿 | 1万亿tokens | Falcon-40B模型信息卡 |
Falcon-40B-Instruct | 指令微调大模型 | 400亿 | 1万亿tokens | Falcon-40B-Instruct模型信息卡 |
Falcon-7B | 基础大语言模型 | 67亿 | 1.5万亿tokens | Falcon-7B模型信息卡 |
Falcon-7B-Instruct | 指令微调大模型 | 67亿 | 1.5万亿tokens | |
Falcon-RW-7B | 基础大语言模型 | 75亿 | 3500亿tokens | |
Falcon-RW-1B | 基础大语言模型 | 13亿 | 3500亿tokens |
Falcon在刚推出Falcon-40B和Falcon-7B的时候,模型的开源协议是一种收费商用授权协议,里面规定如果收入超过100万美元,需要超出部分付10%的知识产权费用。这在当时引起了很大的讨论,最终,官方将开源协议改成Apache 2.0,即完全开源和免费商用。
参考: Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型