BigScience 简介

BigScience
'

人工智能(AI)和自然语言处理(NLP)的加速将对社会产生根本性的影响,因为这些技术是我们日常使用的工具的核心。目前,在NLP方面,相当大一部分的工作是在越来越多的文本上训练越来越大的语言模型。

不幸的是,创建最佳性能模型所需的资源主要掌握在大型科技公司手中。对这种变革性技术的控制从研究进展、环境、伦理和社会的角度来看,都带来了一些问题。

例如,虽然最近的模型如OpenAI/Microsoft的GPT3从研究角度展现了有趣的行为,但这些模型是私有的,许多学术机构无法访问。而且,即使可以访问,这些工具也没有被设计为研究工件,例如缺乏训练数据集或检查点,这使得回答许多关于这些模型的重要研究问题(能力、限制、潜在改进、偏见、伦理、环境影响、一般AI /认知研究格局)变得不可能。当前的情况还促进了能源需求和环境成本的重复,由于在私人环境中重复训练大型模型。最后,这些模型通常以英语为中心,训练这些模型的文本语料库存在缺陷,范围从非代表性的人群到潜在有害的刻板印象或包含个人身份信息。

BigScience 项目旨在展示另一种在人工智能/自然语言处理研究社区内创建、研究和共享大型语言模型和大型研究工件的方法。

该项目从其他科学领域的科学创作方案中汲取灵感,例如粒子物理学中的欧洲核子研究中心(CERN)和大型强子对撞机(LHC),其中开放的科学合作有助于创建对整个研究社区有用的大型工件。

聚集更大的研究社区围绕这些工件的创建使得我们能够提前考虑许多大型语言模型周围的研究问题(能力、局限性、潜在改进、偏见、伦理、环境影响、智能/认知研究领域的总体情况)。然后,有趣的是使用创建的工件、讨论和工具来回答尽可能多的这些问题,并促进围绕研究领域的关键方面的对话。

BigScience 开放科学项目被视为进行协作研究的国际和包容性方式的建议。除了创建和共享的研究工件外,该项目旨在汇集所有技能、条件和经验教训,以便进行此类大规模科学协作的未来实验。

最终,因此,创始成员深信,该项目的成功将最终通过提出“进行大规模科学项目的另一种方式”来衡量其对NLP和AI领域的长期影响。


一个研究工作组

该合作是一个为期一年的大语言模型研究工作坊:“Summer of Language Models 21” 🌸

该工作坊将会:

  • 在一年内在线进行:从2021年5月到2022年5月
  • 包括分散在一年之内的实时活动(第一次在线,后续可能是线下的),至少包括开幕式和闭幕式
  • 进行一系列协作任务,旨在创建、共享和评估一个大型多语言数据集和大型语言模型作为研究工具。

该工作坊将促进关于大语言模型的研究问题(能力、局限性、潜在改进、偏见、伦理、环境影响以及在AI/认知研究领域中的角色)的讨论和思考,以及创建和共享此类模型和数据集以进行研究的挑战和研究社区之间的挑战。

这些协作任务相当大,需要在超级计算机上进行数百万 GPU 小时的计算。

如果成功,这个工作坊将来还可以进行,包括一个更新或不同的协作任务集。

'

BigScience发布的大模型列表

BLOOM

1760.0

亿个参数

2022-07-11

发布时间

预训练结果开源

INT8 GPT-J 6B

60.0

亿个参数

2023-03-16

发布时间

预训练结果开源