截止目前为止最大的国产开源大模型发布:元象科技开源XVERSE-65B大模型,16K上下文,免费商用

标签:#XVERSE-65B##国产大模型##开源大模型# 时间:2023/11/06 17:01:56 作者:小木

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早,智谱AI开源ChatGLM-6B之后,国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模,随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后,元象科技开源650亿参数规模的大语言模型XVERSE-65B,将国产开源大模型的参数规模提高到新的台阶。

开源大模型之争

XVERSE-65B简介

XVERSE-65B是深圳元象科技公司开源的650亿参数规模的大模型。这是一个从头开始训练的大语言模型,是当前主流的Decoder-Only的Transformer架构

根据官方的介绍,XVERSE-65B模型的主要特点如下:

  • 截止国产开源领域参数规模最大的大语言模型,达到650亿参数;
  • 基于2.6万亿tokens的高质量数据集进行预训练,数据集包括中、英、俄、西等 40 多种语言,在中英文上表现很好,支持部分小语种;
  • 词汇表是基于几百GB的语料训练得到,词汇表大小为100534
  • 模型采用了最新的FlashAttention2架构,性能较好;
  • 最高支持16K的上下文输入

这里值得一提的是XVERSE-65B的词汇表大小,应该是目前业界比较大规模的词汇表了:

模型/Model 词表大小/Vocab size 说明/Note 英文平均tokens量/Avg tokens(English) 中文平均tokens量/Avg tokens(Chinesse) 代码平均tokens量/Avg tokens(code)
GPT2 50527 bpe 1717 1764 2323
LLaMA 32000 sp(bpe) 1805 1257 1970
Aquila 100000 bpe 1575 477 1679
Baichuan1 64000 bpe / / /
Baichuan2 125696 bpe / / /
ChatGLM2 64794 bpe / / /
XVERSE-65B 100534 bpe / / /

可以看到,在主流知名的国产大模型中,除了Baichuan2外,XVERSE-65B的词汇表大小是最大的。在大语言模型中,词汇表的大小从某种程度上来说代表了大语言模型的某些能力。因为词汇表越大,大语言模型能够理解的语言就越多、风格就可能越多样,在文本生成和理解方面会有更多的优势。因此,可以期待XVERSE-65B模型的能力。

另一个值得注意的是XVERSE-65B使用了FlashAttention2技术。FlashAttention是一种优化的注意力算法,可以降低大模型的内存占用,提高运行速度。FlashAttention2是2023年7月才发布的新技术,它比FlashAttenion第一代快2倍,显卡的吞吐量利用率达到理论算力的73%。是很新的技术,在XVERSE-65B中也有运用,因此,其速度方面也是可以期待的。

XVERSE-65B的评价结果

除了上面提到的模型训练细节外,官方也发布了XVERSE-65B在各种评测榜单的详细结果。DataLearnerAI也在大模型综合评测排行中更新了,按照MMLU评分排序得到如下结果:

XVERSE-65B的评分结果

数据来源:https://www.datalearner.com/ai-models/llm-evaluation

可以看到,按照MMLU评分排序,XVERSE-65B得分70.8,与GPT-3.5持平,并且接近昨天才宣布的马斯克的大模型Grok-1的水平。MMLU主要是评估大模型语言理解方面的能力,是英文数据集,这里可以看到XVERSE-65B的表现很好。

而在数学推理的评测GSM8K的得分中,XVERSE-65B得分60.3,也是超过了GPT-3.5,接近Grok-1(不过需要注意的是上图不是按照GSM8K排序的,ChatGLM3-6B、Qwen-14B的GSM8K的评分分别是72.3和61.3,是比XVERSE-65B高的,按照GSM8K排序后,XVERSE-65B排第六)。

代码得分中,XVERSE-65B得分26.5,比较一般

总的来说,XVERSE-65B在文本理解和数学推理上表现良好,但是代码能力一般。另外,XVERSE-65B的评测结果官方公布的是比较详细的,这一点也比不少开源模型做的好。

XVERSE-65B资源需求

官方公布了XVERSE-65B资源的需要,还是非常大的。

类型 方法 内存 GPU
XVERSE-65B 训练 LoRA with ZeRO-3 1500GB 8*A800 80G
XVERSE-65B 推理 BF16/FP16 500GB 2*A800 80G

训练需要8个A800(80G)的显卡,1.5T内存。推理需要500GB内存。

按照一般估计,这个推理能跑起来的最低显存要130GB了,还是非常耗资源的,所有需要2张A800。

XVERSE-65B的开源对比

这也是XVERSE-65B最大的亮点。XVERSE-65B开源协议是Apache2.0,完全可以免费商用的大模型

此前,国产开源大模型中,参数规模最大的是北京智源人工智能研究院(BAAI)的Aquila2-34B,而此次开源的XVERSE-65B直接将国产开源大模型的参数推高一个台阶,应该是截止目前为止参数规模最大的开源大模型,基本追平国外MetaAI开源的LLaMA系列的70B的规模。不过,LLaMA2-70B模型的中文能力很差。

模型名称 参数规模 中文支持 DataLearenr模型信息卡地址
ChatGLM3-6B 60亿 支持 https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B
Qwen-14B 140亿 支持 https://www.datalearner.com/ai-models/pretrained-models/Qwen-14B
LLaMA2-70B 700亿 不支持 https://www.datalearner.com/ai-models/pretrained-models/llama-2-70b
XVERSE-65B 650亿 支持 https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B

关于XVERSER-65B的开源地址和其它信息参考DataLearner模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
Back to Top