YA

YAYI2-30B

基础大模型

YAYI2-30B

发布时间: 2023-12-22

模型参数(Parameters)
300.0
最高上下文长度(Context Length)
4K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

4K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-12-22

模型预文件大小

60GB

开源和体验地址

代码开源状态
预训练权重开源
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

YAYI2-30B模型在各大评测榜单的评分

发布机构

模型介绍

中科闻歌开源了一个大语言模型YAYI2-30B,这是中科闻歌从头开始训练的一个大语言模型,参数规模300亿,基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分,超过了Google Gemini Pro,并且是目前全球第三个在MMLU得分超过80分的预训练大模型,前面两个是Google的Gemini Ultra和GPT-4。


YAYI2-30B模型架构和训练细节

YAYI2-30B模型是一个基于transformer架构的decoder-only的模型,是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型,上下文长度为4K。


YAYI2-30B的原始预训练数据集来自240TB的文本数据,包括新闻、书籍、维基百科、代码等,其中41.5%是中文数据。


YAYI2-30B模型本身采用了许多技术来加速训练,提高主权虐心,包括FlashAttention 2、MQA(multi-query attention)等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat,目前暂未开源。


YAYI2-30B模型的训练数据集

YAYI2-30B的预训练数据集可以概括为三类:

互联网数据集:包括社交媒体、开源数据集,占比49.6%;

精选一般数据集:包括不同的书本、代码、百科、学术论文等,占比19%;

领域数据集:财经、媒体、中药等,占比31.4%;


如下图所示:


原始数据240TB,经过清洗之后得到10.6TB高质量预训练数据集,其中中文比例41.5%,英文数据集比例40.4%,其余还包括俄语、德语、西班牙语等多种语言。这意味着这个模型可以很容易扩展不同的语言支持。对多语言支持比较不错。


如下图示:


YAYI2-30B的词汇表大小为81920,也是目前开源模型中数量较多的词汇表了。



此外,中科闻歌还开源了其中500GB的高质量预训练数据集,采用Apache2.0开源协议,开源地址: https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data 


YAYI-30B的评测效果

YAYI2-30B模型各项评测结果中都取得了非常优秀的成绩,特别是在MMLU评测任务上,取得了80.5分,而这个得分不仅超过了ChatGPT-3.5,也超过了最近谷歌发布的Gemini Pro模型。是目前已知的预训练模型中得分第三的模型(第一是Gemini-Ultra,第二名是GPT-4)。

要知道,前两个模型虽然没有公布具体的参数情况,但是根据以往公布的信息应该都是超过了1750亿。而YAYI-30B模型仅仅有300亿。这个参数得分这么高也是非常令人惊叹的。


数据来源: https://www.datalearner.com/ai-models/llm-evaluation 


而数学推理评测GSM8K上得分71.2,还可以。代码评测结果表现也不错,HumanEval评测得分53.1,虽然不如很多代码专用的大模型,但是就一个预训练模型来说,表现还可以。


YAYI-30B的开源

YAYI-30B目前代码采用Apache2.0开源协议,模型预训练结果有2个开源协议,对于社区非商业使用可以不申请授权直接使用,而商业使用需要申请授权,授权协议未明确说是否收费。但由于中科闻歌本身有商业化产品,大概率还是收费商用授权。


YAYI-30B实际测试

为了对比YAYI-30B的模型​能力,我们做了一组有意思的信息抽取测试,要测试抽取的数据如下:


YAYI-30B的返回结果:


​10美元重复了,其它还行吧。但是我觉得ChatGLM似乎更好:





关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat