模型详细情况和参数
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。
通义千问-14B(Qwen-14B)主要有以下特点:
通义千问是阿里巴巴推出的一个大语言模型,此前开源的Qwen-7B引起了广泛的关注,因为他的理解能力很强但是参数规模很小,因此受到了很多人的欢迎。而目前再次开源全新的Qwen-14B的模型,参数规模142亿,但是它的理解能力接近700亿参数规模的LLaMA2-70B,数学推理能力超过GPT-3.5。
Qwen-14B模型介绍Qwen-14B模型的训练细节Qwen-14B模型对长上下文的支持Qwen-14B模型的评测结果Qwen-14B的模型开源情况和相关资源
Qwen-14B是基于Transformer的大型语言模型,按照官方的介绍,Qwen-14B在超过3万亿tokens上训练,数据集包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。而此前的Qwen-7B模型实在2.4万亿tokens上训练。因此,不仅参数规模翻了一倍,其训练数据也增长了25%。
训练数据不同语言占比如下:
参数规模和训练数据的增长也让Qwen-14B的效果大幅增加,在MMLU的评测结果上得分66.3,接近700亿参数规模的LLaMA2-70B,引起了非常多的关注。
Qwen-14B使用了超过3万亿tokens的数据进行预训练,这些数据包括高质量的中文、英文、多语言、代码、数学等信息,覆盖了广泛的领域。通过大量对比实验,预训练数据的分布得到了优化,确保了模型的高质量训练。
模型的架构也非常出色,包括了40层的Transformer编码器,每层有40个注意力头,以及一个5120维的模型维度。
模型的词汇表大小达到了151,851,而序列长度可达2048。这个词汇表可以说是超过了很多模型。大模型的词汇表是指在自然语言处理(NLP)中使用的模型所能理解和处理的所有单词、子词或标记的集合。词汇表的大小通常是衡量一个NLP模型规模的重要指标之一。
目前常见的模型词汇表大小如下:
模型名称 | 词汇表大小 |
---|---|
Qwen-14B | 15.19万 |
Baichuan | 6.4万 |
Baichuan2 | 12.57万 |
ChatGLM2 | 6.48万 |
LLaMA2 | 3.2万 |
可以看到,但从词汇表看,Qwen-14B也是目前最多的模型之一。
在实现方式方面,Qwen-14B采用了流行的技术,如RoPE相对位置编码、SwiGLU激活函数和RMSNorm,这些技术的应用使得模型在各种任务上表现出色。
以下是通义千问-14B(Qwen-14B)模型的详细信息:
Qwen-14B 特点 | 描述 |
---|---|
参数规模 | 140亿参数 |
模型类型 | Transformer |
训练数据 | 超过3万亿tokens的多样化数据,包括中文、英文、多语言、代码、数学等 |
架构细节 | 40层编码器,每层40个注意力头,5120维模型维度 |
词汇表大小 | 151,851 |
最大序列长度 | 2048 |
位置编码方式 | RoPE相对位置编码 |
激活函数 | SwiGLU激活函数 |
归一化方式 | RMSNorm |
词汇表 | 约15万大小的词汇表,支持多语言和数字分词 |
部分语种编码压缩率 | 实现了较高的压缩率,包括泰语、希伯来语、阿拉伯语、韩语等 |
预训练数据 | 超过3T tokens的高质量全网语料,包括全网文本、百科、书籍、代码等 |
支持的Python版本 | 3.8及以上版本 |
推荐的PyTorch版本 | 1.12及以上版本,推荐2.0及以上版本 |
推荐的CUDA版本 | 11.4及以上版本(适用于GPU用户和flash-attention用户等) |
Qwen-14B的强大之处不仅在于其参数规模和训练数据的广泛性,还在于其对长上下文的支持。引入NTK插值,LogN注意力缩放,窗口注意力等技巧,将Qwen-14B模型的上下文长度从2K扩展到8K以上。
这意味着模型能够理解和处理更长的文本片段,这对于复杂的自然语言处理任务非常重要。
最终,我们来看一下Qwen-14B在各种评测任务上的表现。这个模型在多个中英文下游评测任务上都表现出色,包括常识推理、代码理解、数学问题求解、翻译等。事实上,它的性能不仅超越了相近规模的开源模型,甚至在某些指标上也与更大尺寸的模型竞争激烈。在MMLU的评测上,Qwen-14B的得分66.3,远超Baichuan2-13B-Base的59.17分,接近700亿参数规模的LLaMA2-70B的68.9分,而在GSM8K的数学推理上,Qwen-14B的得分61.3分,超过了GPT-3.5的57.1分。
下图是DataLeaner大模型评测中Qwen-14B和其它模型的评测对比结果:
Qwen-14B的评测结果参考DataLeanrer大模型评测:https://www.datalearner.com/ai-models/llm-evaluation
在代码评估上,HumanEval的得分32.3,比CodeLLaMA-7B的33.5略低,但是超过了LLaMA2-70B的30.5分,也就是说,作为语言模型,Qwen-14B代码表现尚可,但是与专门的代码模型相比则不太行。Qwen-14B的代码数据参考:https://www.datalearner.com/ai-models/llm-coding-evaluation
Qwen-14B模型开源了2个版本,一个是Qwen-14B的基础大模型,一个是Qwen-14B-Chat版本的对话调优版本。后者可以更好适应对话任务。
Qwen-14B两个版本模型均上架了DataLearner模型卡:
模型名称 | DataLearner模型信息卡地址 |
---|---|
Qwen-14B | https://www.datalearner.com/ai-models/pretrained-models/Qwen-14B |
Qwen-14B-Chat | https://www.datalearner.com/ai-models/pretrained-models/Qwen-14B-Chat |
需要注意的是,Qwen-14B模型开源协议是自定义开源协议,对学术研究完全开放,而商用需要申请授权,不过也是免费授权商用~