又一个国产开源大模型发布：前腾讯创始人创业公司元象发布XVERSE-13B，超过Baichuan-13B，与ChatGLM2-12B齐平！但免费商用授权！

标签：#LLM##XVERSE-13B##大模型# 时间：2023/08/14 09:57:08 作者：小木

XVERSE-13B是元象开源的一个大语言模型，发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言，其中文和英文水平都十分优异，在评测结果上超过了Baichuan-13B，与ChatGLM2-12B差不多，不过ChatGLM2-12B是收费模型，而XVERSE-13B是免费商用授权！

<center>![](https://www.datalearner.com/resources/blog_images/5a953b54-344a-4164-973c-0bce056919df.png)</center>
<center></center>

#### 元象简介
这是一家成立于2021年的初创企业，由腾讯公司前副总裁姚星创办。2022年3月A/A+轮融资1.2亿美元。

此前，该公司的产品和服务与元宇宙关系密切，包括一些3D互动技术等。本次发布的大语言模型是在HuggingFace上也吸引了很多人的下载使用。

<center>![](https://www.datalearner.com/resources/blog_images/1233ac52-470a-4b36-b7ec-16ab873f8acd.png)</center>
<center></center>

#### XVERSE-13B简介
XVERSE-13B是一个支持多语言的大语言模型。该模型在1.4万亿tokens数据集上训练得到。主要的模型信息如下：

1. **模型结构**：XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 8K 的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
2. **训练数据**：构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
3. **分词**：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,278 的分词器，能够同时支持多语言，而无需额外扩展词表。
4. **训练框架**：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到 58.5%，位居业界前列。

#### XVERSE-13B评测结果
官方宣称，该模型在中英文测评上的效果都很好。这里我们也可以看看：

|模型|MMLU|C-Eval|AGIEval1|GAOKAO-Bench1|GAOKAO-English1|
|:----|:----|:----|:----|:----|:----|
|Baichuan-13B|51.62|53.63|40.5|45.9|56.9|
|Llama-1-13B|46.94|28.8|27.3|26.4|38.1|
|Llama-2-13B|54.84|35.6|33.4|35.4|60.6|
|moss-moon-003-base (16B)|24.7|33.13|26.8|28.5|34.7|
|OpenLLaMA-13B|42.4|24.7|24.0|25.6|33.3|
|OPT-13B|25.2|25.0|24.2|24.4|31.1|
|Pythia-12B|25.1|26.2|25.3|25.3|26.8|
|Ziya-LLaMA-13B-Pretrain-v1|43.9|30.2|27.2|26.4|37.6|
|ChatGLM2-6B (base)|47.86|51.7||||
|ChatGLM2-12B (base)|56.18|61.6||||
|Qwen-7B|56.7|59.6||||
|XVERSE-13B|55.1|54.7|41.4|53.9|66.5|

注意，这里的ChatGLM2和Qwen是我们加入的，官方的列表没有提供，但是可以看到，其实这两个模型在MMLU上的得分是很不错的，比XVERSE-13B要好。

#### XVERSE-13B的下载地址

下载地址和官方的代码地址参考XVERSE-13B的模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/XVERSE-13B

又一个国产开源大模型发布：前腾讯创始人创业公司元象发布XVERSE-13B，超过Baichuan-13B，与ChatGLM2-12B齐平！但免费商用授权！

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客