评测名称 | 评测能力方向 | 评测结果 |
---|---|---|
MMLU Pro | 知识问答 | 67.5 |
MATH | 数学推理 | 89.0 |
GPQA Diamond | 常识推理 | 42.4 |
SimpleQA | 真实性评估 | 10.0 |
LiveCodeBench | 代码生成 | 29.7 |
Gemma 3 - 27B Instruct是Google的第三代Gemma大模型,27亿参数,指令优化版本。Gemma系列是Google开源的系列大模型,基座模型为Google的Gemini,Gemini是闭源版本。Gemma 3 - 27B Instruct在2025年3月12日出现在Google AI Studio上,开发者可以免费使用。
该模型最多支持8K的输出,输入准确来说131072个tokens。
关于Gemma开源系列模型介绍: https://www.datalearner.com/blog/1051708523708257
Gemma3-27B 是 Google DeepMind 在 Gemma 3 系列中规模最大、性能最强的版本。相比 12B 版本,它在复杂任务上的表现更为出色,并在多个基准测试中达到或接近 Gemini 1.5 Pro 的水平。该模型支持 128K tokens 长上下文,配备 417M 参数的视觉编码器,在文本生成、代码理解、多模态任务等方面均表现优异。
Gemma3-27B 采用 解码器 Transformer 架构,结合 Grouped-Query Attention (GQA) 以优化计算效率,并通过 5:1 的局部/全局注意力交替 机制降低 KV 缓存占用,使其在长文本推理方面具备显著优势。同时,它集成了 SigLIP 视觉编码器,支持 OCR、文档理解等任务。
该模型在 TPUv5p 平台 训练,采用 6144 个 TPU,24 数据切分、8 序列切分、32 副本。使用 14T tokens 进行训练,并通过 知识蒸馏 提高性能。此外,后训练阶段采用强化学习优化数学、推理、指令跟随等能力,使其在各类任务上均表现出色。
模型版本 | 视觉编码器参数 | 嵌入参数 | 非嵌入参数 | 上下文长度 |
---|---|---|---|---|
Gemma3‑12B | 417M | 1012M | 10759M | 128K tokens |
Gemma3‑27B | 417M | 1416M | 25600M | 128K tokens |
Gemma3-27B 在多个评测中均取得了优异的成绩,接近甚至超越部分封闭大模型,特别是在 MMLU、数学推理、代码生成等方面。
评测基准 | Gemma3-4B | Gemma3-12B | Gemma3-27B | Gemini 1.5 Pro |
---|---|---|---|---|
MMLU-Pro | 43.6 | 60.6 | 67.5 | 79.1 |
LiveCodeBench | 12.6 | 24.6 | 29.7 | 36.0 |
Bird-SQL | 36.3 | 47.9 | 54.4 | 59.3 |
GPQA Diamond | 30.8 | 40.9 | 42.4 | 64.7 |
SimpleQA | 4.0 | 6.3 | 10.0 | 44.3 |
MATH | 75.6 | 83.8 | 89.0 | 91.8 |
在 LMSYS Chatbot Arena 的人类评测中,Gemma3-27B-IT 获得 1338 Elo,位列 前 10,超过 DeepSeek-V3、LLaMA 3 70B、Qwen2.5-70B 等大规模模型,仅次于封闭大模型 GPT-4.5、Gemini-2.0-Pro 等。
排名 | 模型名称 | Elo 分数 | 参数规模 |
---|---|---|---|
1 | Grok-3-Preview-02-24 | 1412 | - |
1 | GPT-4.5-Preview | 1411 | - |
3 | Gemini-2.0-Pro-Exp | 1380 | - |
6 | DeepSeek-R1 | 1363 | 671B/37B |
9 | Gemma3-27B-IT | 1338 | 27B |
14 | Claude 3.7 Sonnet | 1309 | - |
18 | Gemini-1.5-Pro-002 | 1302 | - |
Gemma3-27B 是 Google DeepMind 迄今最强大的开源模型,在多个评测中接近封闭大模型,适用于复杂文本推理、代码生成、多模态任务等高端应用。对于需要最先进 LLM 性能的研究者和开发者来说,它是当前最值得关注的开源选择之一。