Chinese Pretrained Model - Bee

清华大学NLP小组开源的可商用大语言模型

CPM-Bee基本信息

模型发布时间: 2023-06-30

模型发布机构: OpenBMB

模型所属类型: 自然语言处理

模型官方地址: https://github.com/OpenBMB/CPM-Bee

CPM-Bee大模型详细介绍

CPM-Bee模型来自清华大学NLP实验室,参数规模100亿,最重要的是对个人和企业用户均提供免费商用授权,十分友好!


一个月之前,清华大学NLP小组发布了一个100亿参数规模的基础大语言模型CPM-Bee 10B,该模型基于超过1万亿tokens的数据集上训练,中文支持十分友好,是国产领域非常优秀的模型。具体来说,该模型有如下特点:

  • 训练质量较高:CPM-Bee 10B在超过1万亿tokens的数据集上训练,训练数据中包含200GB高质量中文数据集,且模型参数达到100亿,在国产开源领域目前应该是最优秀的一类(ChatGLM-6B和Baichuan 7B开源模型参数规模只有60-70亿,复旦大学的MOSS开源模型参数规模虽然有160亿,但是训练数据只有7000多tokens)。
  • 社区生态良好:开源大模型一个很重要的方面是社区的支持和生态的丰富程度。不同的人对LLM的使用需求差异很大,因此对模型微调和改造是开源LLM是否吸引人的重要因素。CPM-Bee 10B在GitHub上开源并提供了模型微调、模型联网等内容和工具,并且背后有一个OpenBMB社区提供官方支持,对于使用者来说非常友好。
  • 模型易用性高:CPM-Bee已经整合到HuggingFace的著名开源库transformers中,可以直接按照transformer官方使用方法调用,与主流生态兼容性高。而在使用方面,官方还提供了微调脚本,只需要准备好数据即可直接运行微调脚本获得在我们自己数据集上微调后的大模型,十分简单方便。
  • 使用成本较低:CPM-Bee 10B模型的推理显存占用仅需20GB即可,在单张消费级显卡(RTX 3090 24GB)上即可运行,它也开源了5B、2B和1B版本,最低仅需6GB显存即可使用,因此使用成本很低。
  • 免费商用授权:CPM-Bee 10B最重要的一点是商用授权免费,只需要发送邮件申请纸质授权即可(官方透露电子邮件申请,纸质授权包邮到家哦~)。

总的来说,CPM-Bee 10B模型在社区建设和模型的使用方面提供了非常多的支持,同时还免费商用授权,这在开源领域应该说非常少了。此外,从官方公布的评测结果看,CPM-Bee 10B模型的英文水平与MetaAI开源LLaMA 13B差不多。不过,这是基于ZeroCLUE评测结果,官方目前还没有给出更多的评测结果,期待更多评测结果出现。

CPM-Bee 10B的免费商用授权

目前,CPM-Bee 10B发布仅一个月的时间,已经有40多家企业申请并获得授权使用了。

来源:OpenBMB微信公众号内容

从上图中可以看到,包括海康威视合肥综合性国家科学中心数据空间研究院深圳证券信息有限公司等企业都在使用,应该是覆盖十分广泛了。目前,官方宣称CPM-Bee 10B支持文字填空、文本生成、翻译、问答、评分预测、文本选择题等NLP应用场景。因此可以支持不同类型企业在不同场景下进行应用。

不过值得一提的是,CPM-Bee 10B在商用方面有3个能力值得大家关注:

首先,是官方提供了非常方便的微调脚本,可以根据自己的需要构造数据,包括填空、文本生成、翻译、问答、评分预测、选择题几种类型数据,然后用官方的脚本将其转换成二进制形式后直接调用finetune_cpm_bee.sh脚本即可微调。甚至也可以用transformer官方使用方法并行微调。而且该模型支持全量微调和增量微调(PEFT),仅仅是参数不同。这对于商用诉求来说非常重要,因为大多数企业需要使用通用LLM在私有数据上微调,这也是大模型在不同企业发挥竞争力和差异性的最主要的方法,那么方便的微调方式是商用不可缺少的东西。

其次,官方提供了基于CPM-Bee 10B的联网版本大模型WebCPM,大家可以使用这个模型,通过模拟人类搜索的行为,对于原始问题进行拆解分析后通过Bing搜索获得相关结果后再回答,几乎等同于ChatGPT的Browse插件,因此对于需要新数据和LLM联网的用户来说很有价值。而且,这种方式继续发展也很容易变成AI Agent方式,扩展成为可以执行代码、画图、搜索等能力,这一点还是期待官方或者开源的继续贡献。对于某些场景的商用,例如需要新数据或者需要联网的场景来说都很重要。

最后一个值得期待的特性是官方还提供了一个基于基础模型提高下游任务性能的方法Decoder Tuning。当前大多数大模型都是通过让用户做prompt工程来提高模型的输出准确性,方法的优点是不改变模型参数即可获得正确的结果,缺点则是需要对输入进行反复尝试和调优。而Decoder Tuning则是对输出结果进行调整获得更好的结果,尽管这种方法相比prompt工程需要多一点的时间,但是效果却更好。官方宣称该方法可以仅仅使用API的情况下,不访问和修改模型参数即可大幅提高下游任务的性能。测试结果CPM-Bee 10B的任务效果从基础模型的61.9分提高到了85.6分,这也是十分值得期待的特性。

CPM-Bee 10B的免费商用授权申请方法

官方提供了一个邮箱地址(cpm at modelbest.cn)供大家申请,只需要填写发送邮件获取表格即可申请。申请成功之后官方应该会免费邮寄一个纸质授权书。从CPM-Bee 10B的生态建设和社区支持看,该模型未来发展十分值得期待。

大家也可以从DataLearner信息卡中获得更多CPM-Bee 10B相关的信息,包括GitHub开源地址、官方网站等:https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
datalearner-wechat
基于CPM-Bee微调的模型列表