Gemma 3 - 12B (IT) - Gemma 3 - 12B (IT)模型详细情况和参数

Gemma 3 - 12B (IT)

模型全称
Gemma 3 - 12B (IT)
模型简称
Gemma 3 - 12B (IT)
模型类型
基础大模型
发布日期
2025-03-12
预训练文件大小
2GB
是否支持中文(中文优化)
最高支持的上下文长度
128K
模型参数数量(亿)
120.0
模型代码开源协议
Gemma Terms of Use
预训练结果开源商用情况
Gemma Terms of Use - 免费商用授权
模型GitHub链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
Gemma 3 Technical Report
基础模型
无基础模型
发布机构
评测结果
评测名称 评测能力方向 评测结果
MMLU Pro 知识问答 60.6
MATH 数学推理 83.8
GPQA Diamond 常识推理 40.9
SimpleQA 真实性评估 6.3
LiveCodeBench 代码生成 24.6

Gemma 3 - 12B (IT) 简介

Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。


关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194 


Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。


模型架构与设计

  • 解码器结构与注意力机制 采用 解码器 Transformer 架构,引入 Grouped-Query Attention (GQA),结合 QK-norm 以优化注意力分布,提高计算稳定性。
  • 局部与全局注意力层交替 采用 5:1 的局部/全局注意力交替 设计,减少 KV 缓存占用,使长文本推理更高效。
  • 视觉模块 内置 417M 参数的 SigLIP 视觉编码器,支持图像输入,可用于 OCR、图文对齐等任务。

训练细节

  • 知识蒸馏:从更大模型(如 27B 版本)学习,提高文本理解和生成能力。
  • 训练数据:使用 10T tokens 进行训练,包含大规模多语言文本和图像数据。
  • 训练硬件:在 TPUv4 平台 上训练,采用 6144 个 TPU,16 数据切分、16 序列切分、24 副本。

参数配置

模型版本视觉编码器参数嵌入参数非嵌入参数上下文长度
Gemma3‑4B417M675M3209M128K tokens
Gemma3‑12B417M1012M10759M128K tokens
Gemma3‑27B417M1416M25600M128K tokens

模型特点与评测表现

  • 多模态能力:内置视觉编码器,适用于图文任务。
  • 长上下文处理:支持 128K tokens,适用于代码生成和复杂推理。
  • 计算性能平衡:比 4B 更强,比 27B 计算要求更低,适合高性能需求但资源受限的场景。

总结

Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DataLearnerAI大模型微信公众号