Phi-4-mini-instruct (3.8B)
发布时间: 2025-02-27
128K tokens
聊天大模型
2025-02-27
7.67GB
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
微软近期发布的 Phi-4-mini-instruct 模型是一款轻量级的开放性语言模型,属于 Phi-4 系列,并专注于多语言支持与高效推理能力。它在基于合成数据和公开网站数据进行训练时,特别注重高质量推理密集型数据。这款模型不仅具有较强的推理能力,还在多语言任务中表现出色,支持高达 128K tokens 的上下文长度。
特性 | 详细描述 |
---|---|
参数量 | 3.8B |
模型架构 | 密集型解码器(Transformer),采用组查询注意力(Grouped-Query Attention) |
词汇表大小 | 200,064 tokens |
上下文长度 | 支持 128K tokens |
训练数据量 | 5万亿 tokens,涵盖高质量的教育数据、代码数据和合成数据 |
训练硬件 | 512 A100-80G GPUs |
训练时间 | 21天 |
发布版本 | 2025年2月 |
Phi-4-mini-instruct 主要面向多语言的商业和研究用途,尤其适合需要 内存和计算资源受限的环境,以及对 推理能力要求较高(如数学与逻辑推理) 的应用场景。它能够显著加速语言和多模态模型的研究,成为生成式 AI 功能开发的重要基石。
Phi-4-mini-instruct 在多个基准测试中的表现令人印象深刻,尽管其模型参数量相对较少。以下是与其他同类模型在多个任务上的比较:
基准任务 | Phi-4-mini-instruct | Phi-3.5-mini-Ins | Llama-3.2-3B-Ins | GPT-4o-mini-2024-07-18 |
---|---|---|---|---|
Arena Hard | 32.8 | 34.4 | 17.0 | 53.7 |
MMLU (5-shot) | 67.3 | 65.5 | 61.8 | 77.2 |
Multilingual MMLU (5-shot) | 49.3 | 51.8 | 48.1 | 72.9 |
GSM8K (8-shot, CoT) | 88.6 | 76.9 | 75.6 | 91.3 |
MATH (0-shot, CoT) | 64.0 | 49.8 | 46.7 | 70.2 |
从表格中可以看出,尽管 Phi-4-mini-instruct 拥有较少的参数,它仍在多项任务上与更大规模的模型相当,特别是在多语言处理和数学推理方面,显示出了强大的能力。
该模型的训练数据来自于多种来源,包括:
由于其高效的推理能力,Phi-4-mini-instruct 适用于一些对延迟和计算能力要求较高的应用场景,如:
尽管Phi-4-mini-instruct 在多个基准上表现出色,但与所有语言模型一样,仍然存在一些潜在的风险。微软特别强调了以下几个方面:
微软的 Phi-4-mini-instruct 是一款高效、强大的轻量级语言模型,适用于各种多语言应用。其在多个领域的表现使其成为研究和实际应用中的一个有力工具。然而,开发者在使用时需注意其在安全性、准确性和多语言支持方面的潜在限制,并采取必要的措施进行风险管理。
关注DataLearnerAI微信公众号,接受最新大模型资讯