清华大学NLP小组开源的可商用大语言模型
模型发布时间: 2023-06-30
模型发布机构: OpenBMB
模型所属类型: 自然语言处理
模型官方地址: https://github.com/OpenBMB/CPM-Bee
CPM-Bee模型来自清华大学NLP实验室,参数规模100亿,最重要的是对个人和企业用户均提供免费商用授权,十分友好!
一个月之前,清华大学NLP小组发布了一个100亿参数规模的基础大语言模型CPM-Bee 10B,该模型基于超过1万亿tokens的数据集上训练,中文支持十分友好,是国产领域非常优秀的模型。具体来说,该模型有如下特点:
总的来说,CPM-Bee 10B模型在社区建设和模型的使用方面提供了非常多的支持,同时还免费商用授权,这在开源领域应该说非常少了。此外,从官方公布的评测结果看,CPM-Bee 10B模型的英文水平与MetaAI开源LLaMA 13B差不多。不过,这是基于ZeroCLUE评测结果,官方目前还没有给出更多的评测结果,期待更多评测结果出现。
目前,CPM-Bee 10B发布仅一个月的时间,已经有40多家企业申请并获得授权使用了。
来源:OpenBMB微信公众号内容
从上图中可以看到,包括海康威视、合肥综合性国家科学中心数据空间研究院、深圳证券信息有限公司等企业都在使用,应该是覆盖十分广泛了。目前,官方宣称CPM-Bee 10B支持文字填空、文本生成、翻译、问答、评分预测、文本选择题等NLP应用场景。因此可以支持不同类型企业在不同场景下进行应用。
不过值得一提的是,CPM-Bee 10B在商用方面有3个能力值得大家关注:
首先,是官方提供了非常方便的微调脚本,可以根据自己的需要构造数据,包括填空、文本生成、翻译、问答、评分预测、选择题几种类型数据,然后用官方的脚本将其转换成二进制形式后直接调用finetune_cpm_bee.sh
脚本即可微调。甚至也可以用transformer
官方使用方法并行微调。而且该模型支持全量微调和增量微调(PEFT),仅仅是参数不同。这对于商用诉求来说非常重要,因为大多数企业需要使用通用LLM在私有数据上微调,这也是大模型在不同企业发挥竞争力和差异性的最主要的方法,那么方便的微调方式是商用不可缺少的东西。
其次,官方提供了基于CPM-Bee 10B的联网版本大模型WebCPM,大家可以使用这个模型,通过模拟人类搜索的行为,对于原始问题进行拆解分析后通过Bing搜索获得相关结果后再回答,几乎等同于ChatGPT的Browse插件,因此对于需要新数据和LLM联网的用户来说很有价值。而且,这种方式继续发展也很容易变成AI Agent方式,扩展成为可以执行代码、画图、搜索等能力,这一点还是期待官方或者开源的继续贡献。对于某些场景的商用,例如需要新数据或者需要联网的场景来说都很重要。
最后一个值得期待的特性是官方还提供了一个基于基础模型提高下游任务性能的方法Decoder Tuning。当前大多数大模型都是通过让用户做prompt工程来提高模型的输出准确性,方法的优点是不改变模型参数即可获得正确的结果,缺点则是需要对输入进行反复尝试和调优。而Decoder Tuning则是对输出结果进行调整获得更好的结果,尽管这种方法相比prompt工程需要多一点的时间,但是效果却更好。官方宣称该方法可以仅仅使用API的情况下,不访问和修改模型参数即可大幅提高下游任务的性能。测试结果CPM-Bee 10B的任务效果从基础模型的61.9分提高到了85.6分,这也是十分值得期待的特性。
官方提供了一个邮箱地址(cpm at modelbest.cn)供大家申请,只需要填写发送邮件获取表格即可申请。申请成功之后官方应该会免费邮寄一个纸质授权书。从CPM-Bee 10B的生态建设和社区支持看,该模型未来发展十分值得期待。
大家也可以从DataLearner信息卡中获得更多CPM-Bee 10B相关的信息,包括GitHub开源地址、官方网站等:https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee