模型详细情况和参数
BLOOM支持中文!
注意,只要BLOOM没有被用于不允许的用例,那它是可以被商用的!
大型语言模型(LLMs)已经被证明能够根据一些演示或自然语言指令执行新任务。虽然这些能力已经得到广泛应用,但大多数LLMs都是由资源充足的组织开发的,并且经常不向公众开放。为了推动这种强大技术的民主化进程,BigScience发布了BLOOM,一个由数百名研究人员合作设计和构建的1760亿参数的开放式语言模型。BLOOM是一个仅解码器的Transformer语言模型,它是在ROOTS语料库上进行训练的,该语料库包含46种自然语言和13种编程语言的数百个来源(总共59种)。
实验结果表明,在进行多任务提示微调后,BLOOM在各种基准测试中取得了有竞争力的表现。为了促进未来使用LLMs进行研究和应用,BigScience公开发布了这个模型和代码(开源协议:Responsible AI License)。
BLOOM是一个自回归的大型语言模型(LLM),使用工业规模的计算资源,在大量文本数据上训练以继续从提示文本生成文本。因此,它能够输出46种语言和13种编程语言的连贯文本,几乎无法与人类编写的文本区分开来。BLOOM还可以通过将它们作为文本生成任务来执行它没有显式训练的文本任务。
训练语料
BLOOM是在ROOTS语料库上进行训练的,这是由498个Hugging Face数据集组成的综合集合,总共有1.61TB的文本,覆盖46种自然语言和13种编程语言。这个数据集的高级概述可以在下图看到。
他们也公布了语料的处理过程:
与其它模型的对比
训练大模型的成本现在也被大家十分重视,因此,BLOOM的训练团队还公布了他们与其它模型的对比结果:
模型名称 | 参数数量(亿) | 电力消耗(MWh) | CO2排放(吨) | 模型介绍链接 |
---|---|---|---|---|
GPT-3 | 1750 | 1287 | 502 | GPT-3模型卡 |
Gopher | 2800 | 1066 | 352 | Gopher模型卡 |
OPT | 1750 | 324 | 70 | OPT模型卡 |
BLOOM | 1760 | 433 | 25 | BLOOM模型卡 |
根据官方提供的评测结果,该模型效果十分优秀,与GPT-3也差不多。重要的是该模型完全开源公开,大家可以在模型链接中找到下载地址。