模型详细情况和参数
中科闻歌开源了一个大语言模型YAYI2-30B,这是中科闻歌从头开始训练的一个大语言模型,参数规模300亿,基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分,超过了Google Gemini Pro,并且是目前全球第三个在MMLU得分超过80分的预训练大模型,前面两个是Google的Gemini Ultra和GPT-4。
YAYI2-30B模型是一个基于transformer架构的decoder-only的模型,是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型,上下文长度为4K。
YAYI2-30B的原始预训练数据集来自240TB的文本数据,包括新闻、书籍、维基百科、代码等,其中41.5%是中文数据。
YAYI2-30B模型本身采用了许多技术来加速训练,提高主权虐心,包括FlashAttention 2、MQA(multi-query attention)等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat,目前暂未开源。
YAYI2-30B的预训练数据集可以概括为三类:
互联网数据集:包括社交媒体、开源数据集,占比49.6%;
精选一般数据集:包括不同的书本、代码、百科、学术论文等,占比19%;
领域数据集:财经、媒体、中药等,占比31.4%;
如下图所示:
原始数据240TB,经过清洗之后得到10.6TB高质量预训练数据集,其中中文比例41.5%,英文数据集比例40.4%,其余还包括俄语、德语、西班牙语等多种语言。这意味着这个模型可以很容易扩展不同的语言支持。对多语言支持比较不错。
如下图示:
YAYI2-30B的词汇表大小为81920,也是目前开源模型中数量较多的词汇表了。
此外,中科闻歌还开源了其中500GB的高质量预训练数据集,采用Apache2.0开源协议,开源地址: https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data
YAYI2-30B模型各项评测结果中都取得了非常优秀的成绩,特别是在MMLU评测任务上,取得了80.5分,而这个得分不仅超过了ChatGPT-3.5,也超过了最近谷歌发布的Gemini Pro模型。是目前已知的预训练模型中得分第三的模型(第一是Gemini-Ultra,第二名是GPT-4)。
要知道,前两个模型虽然没有公布具体的参数情况,但是根据以往公布的信息应该都是超过了1750亿。而YAYI-30B模型仅仅有300亿。这个参数得分这么高也是非常令人惊叹的。
数据来源: https://www.datalearner.com/ai-models/llm-evaluation
而数学推理评测GSM8K上得分71.2,还可以。代码评测结果表现也不错,HumanEval评测得分53.1,虽然不如很多代码专用的大模型,但是就一个预训练模型来说,表现还可以。
YAYI-30B目前代码采用Apache2.0开源协议,模型预训练结果有2个开源协议,对于社区非商业使用可以不申请授权直接使用,而商业使用需要申请授权,授权协议未明确说是否收费。但由于中科闻歌本身有商业化产品,大概率还是收费商用授权。
为了对比YAYI-30B的模型能力,我们做了一组有意思的信息抽取测试,要测试抽取的数据如下:
YAYI-30B的返回结果:
10美元重复了,其它还行吧。但是我觉得ChatGLM似乎更好: