模型详细情况和参数
XVERSE-65B是元象科技开源的国产大语言模型,参数规模650亿,基于Apache2.0开源协议开源,完全免费商用授权。是国产开源大模型参数规模最大的一个大模型。
国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早,智谱AI开源ChatGLM-6B之后,国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模,随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后,元象科技开源650亿参数规模的大语言模型XVERSE-65B,将国产开源大模型的参数规模提高到新的台阶。
XVERSE-65B简介XVERSE-65B的评价结果XVERSE-65B的开源对比
XVERSE-65B是深圳元象科技公司开源的650亿参数规模的大模型。这是一个从头开始训练的大语言模型,是当前主流的Decoder-Only的Transformer架构。
根据官方的介绍,XVERSE-65B模型的主要特点如下:
这里值得一提的是XVERSE-65B的词汇表大小,应该是目前业界比较大规模的词汇表了:
模型/Model | 词表大小/Vocab size | 说明/Note | 英文平均tokens量/Avg tokens(English) | 中文平均tokens量/Avg tokens(Chinesse) | 代码平均tokens量/Avg tokens(code) |
---|---|---|---|---|---|
GPT2 | 50527 | bpe | 1717 | 1764 | 2323 |
LLaMA | 32000 | sp(bpe) | 1805 | 1257 | 1970 |
Aquila | 100000 | bpe | 1575 | 477 | 1679 |
Baichuan1 | 64000 | bpe | 1575 | 477 | 1679 |
Baichuan2 | 125696 | bpe | / | / | / |
ChatGLM2 | 64794 | bpe | / | / | / |
XVERSE-65B | 100534 | bpe | / | / | / |
可以看到,在主流知名的国产大模型中,除了Baichuan2外,XVERSE-65B的词汇表大小是最大的。在大语言模型中,词汇表的大小从某种程度上来说代表了大语言模型的某些能力。因为词汇表越大,大语言模型能够理解的语言就越多、风格就可能越多样,在文本生成和理解方面会有更多的优势。因此,可以期待XVERSE-65B模型的能力。
另一个值得注意的是XVERSE-65B使用了FlashAttention2技术。FlashAttention是一种优化的注意力算法,可以降低大模型的内存占用,提高运行速度。FlashAttention2是2023年7月才发布的新技术,它比FlashAttenion第一代快2倍,显卡的吞吐量利用率达到理论算力的73%。是很新的技术,在XVERSE-65B中也有运用,因此,其速度方面也是可以期待的。
除了上面提到的模型训练细节外,官方也发布了XVERSE-65B在各种评测榜单的详细结果。DataLearnerAI也在大模型综合评测排行中更新了,按照MMLU评分排序得到如下结果:
数据来源:https://www.datalearner.com/ai-models/llm-evaluation
可以看到,按照MMLU评分排序,XVERSE-65B得分70.8,与GPT-3.5持平,并且接近昨天才宣布的马斯克的大模型Grok-1的水平。MMLU主要是评估大模型语言理解方面的能力,是英文数据集,这里可以看到XVERSE-65B的表现很好。
而在数学推理的评测GSM8K的得分中,XVERSE-65B得分60.3,也是超过了GPT-3.5,接近Grok-1(不过需要注意的是上图不是按照GSM8K排序的,ChatGLM3-6B、Qwen-14B的GSM8K的评分分别是72.3和61.3,是比XVERSE-65B高的,按照GSM8K排序后,XVERSE-65B排第六)。
在代码得分中,XVERSE-65B得分26.5,比较一般。
总的来说,XVERSE-65B在文本理解和数学推理上表现良好,但是代码能力一般。另外,XVERSE-65B的评测结果官方公布的是比较详细的,这一点也比不少开源模型做的好。
这也是XVERSE-65B最大的亮点。XVERSE-65B开源协议是Apache2.0,完全可以免费商用的大模型。
此前,国产开源大模型中,参数规模最大的是北京智源人工智能研究院(BAAI)的Aquila2-34B,而此次开源的XVERSE-65B直接将国产开源大模型的参数推高一个台阶,应该是截止目前为止参数规模最大的开源大模型,基本追平国外MetaAI开源的LLaMA系列的70B的规模。不过,LLaMA2-70B模型的中文能力很差。
模型名称 | 参数规模 | 中文支持 | DataLearenr模型信息卡地址 |
---|---|---|---|
ChatGLM3-6B | 60亿 | 支持 | https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B |
Qwen-14B | 140亿 | 支持 | https://www.datalearner.com/ai-models/pretrained-models/Qwen-14B |
LLaMA2-70B | 700亿 | 不支持 | https://www.datalearner.com/ai-models/pretrained-models/llama-2-70b |
XVERSE-65B | 650亿 | 支持 | https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B |
关于XVERSER-65B的开源地址和其它信息参考DataLearner模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B