模型详细情况和参数
近期,Qwen团队发布了Qwen1.5语言模型系列的最新成员——Qwen1.5-32B及其聊天版本Qwen1.5-32B-Chat。本模型参数320亿,是此前发布的通义千问系列最强模型Qwen1.5-72B模型参数的一半,但是性能非常接近。因此,是一个值得关注使用的模型。官方发布的Qwen1.5-32B包含5个版本:
Qwen1.5-32B模型版本 | 模型介绍 | HuggingFace下载地址 |
---|---|---|
Qwen1.5-32B | 预训练基座模型,没有任何对齐 | https://huggingface.co/Qwen/Qwen1.5-32B |
Qwen1.5-32B-Chat | 聊天优化版本模型 | https://huggingface.co/Qwen/Qwen1.5-32B-Chat |
Qwen1.5-32B-Chat-AWQ | AWQ量化版本 | https://huggingface.co/Qwen/Qwen1.5-32B-Chat-AWQ |
Qwen1.5-32B-Chat-GGUF | GGUF量化版本 | https://huggingface.co/Qwen/Qwen1.5-32B-Chat-GGUF |
Qwen1.5-32B-Chat-GPTQ-Int4 | Int4量化版本 | https://huggingface.co/Qwen/Qwen1.5-32B-Chat-GPTQ-Int4 |
Qwen1.5-32B模型是一个拥有320亿参数的语言模型,它在保持与Qwen1.5系列其他模型相似的架构基础上,引入了分组查询注意力(Grouped Query Attention, GQA)技术,以期在模型服务中实现更高效的推理性能。该模型的开发过程中,Qwen团队不仅关注基础模型的性能,同时也在后训练技术,特别是强化学习人类反馈(Reinforcement Learning from Human Feedback, RLHF)方面取得了进展,以提升Qwen1.5-32B-Chat的对话能力。
在性能评估方面,Qwen1.5-32B模型在多个基准测试中展现出了竞争力。与72B参数的模型相比,尽管性能略有下降,但在大多数任务中仍然超过了其他30B参数的模型,如Llama2-34B和Mixtral-8x7B。具体来看,Qwen1.5-32B在MMLU、GSM8K、HumanEval和BBH等任务上的表现均十分出色。在DataLearnerAI收集的全球主流模型评测结果上,Qwen1.5-32B接近此前发布的DBRX模型( https://www.datalearner.com/ai-models/pretrained-models/DBRX-Instruct ),这是一个1320亿参数的MoE模型:
数据来源: https://www.datalearner.com/ai-models/llm-evaluation (按照MMLU从高到低排序)
对于聊天模型,Qwen1.5-32B-Chat在MT-Bench和Alpaca-Eval 2.0上的测试结果显示,其平均得分超过8分,与72B参数的Qwen1.5-72B-Chat相比差距相对较小。这表明,对于需要更高效、成本更低的聊天应用解决方案的用户来说,32B模型是一个可行的选择。
在多语言能力方面,Qwen1.5-32B在包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印尼语在内的12种语言上进行了测试。测试内容涵盖了考试、理解、数学和翻译等多个领域,结果显示该模型具备相当不错的多语言处理能力,虽然略逊于72B模型,但整体表现仍然令人满意。
在长文本处理方面,Qwen1.5-32B在“大海捞针”(Needle in a Haystack)的评估中表现出色,能够在32K tokens的上下文中实现顶级性能。这一点对于需要处理大量文本数据的应用场景尤为重要。