模型详细情况和参数
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。
Qwen-7B-Chat是在在Qwen-7B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。
通义千问的评测效果也很好,超过了LLaMA2:
Model | MMLU | C-Eval | GSM8K | HumanEval | WMT22 (en-zh) |
---|---|---|---|---|---|
LLaMA-7B | 35.1 | - | 11.0 | 10.5 | 8.7 |
LLaMA 2-7B | 45.3 | - | 14.6 | 12.8 | 17.9 |
Baichuan-7B | 42.3 | 42.8 | 9.7 | 9.2 | 26.6 |
ChatGLM2-6B | 47.9 | 51.7 | 32.4 | 9.2 | - |
InternLM-7B | 51.0 | 52.8 | 31.2 | 10.4 | 14.8 |
Baichuan-13B | 51.6 | 53.6 | 26.6 | 12.8 | 30.0 |
LLaMA-13B | 46.9 | 35.5 | 17.8 | 15.8 | 12.0 |
LLaMA 2-13B | 54.8 | - | 28.7 | 18.3 | 24.2 |
ChatGLM2-12B | 56.2 | 61.6 | 40.9 | - | - |
Qwen-7B | 56.7 | 59.6 | 51.6 | 24.4 | 30.6 |
从上图的评测中可以看到,阿里通义千问在MMLU得分第一,超过了LLaMA2系列模型,而其他方面的得分也很高。最重要的是这个模型中文支持良好,开源免费商用!
Qwen-7B-Chat版本的基础模型是Qwen-7B,模型信息卡: https://www.datalearner.com/ai-models/pretrained-models/Qwen-7B