评测名称 | 评测能力方向 | 评测结果 |
---|---|---|
MMLU Pro | 知识问答 | 60.6 |
MATH | 数学推理 | 83.8 |
GPQA Diamond | 常识推理 | 40.9 |
SimpleQA | 真实性评估 | 6.3 |
LiveCodeBench | 代码生成 | 24.6 |
Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。
关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194
Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。
模型版本 | 视觉编码器参数 | 嵌入参数 | 非嵌入参数 | 上下文长度 |
---|---|---|---|---|
Gemma3‑4B | 417M | 675M | 3209M | 128K tokens |
Gemma3‑12B | 417M | 1012M | 10759M | 128K tokens |
Gemma3‑27B | 417M | 1416M | 25600M | 128K tokens |
Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。