Ge

Gemma 3 - 4B (IT)

基础大模型

Gemma 3 - 4B (IT)

发布时间: 2025-03-12

模型参数(Parameters)
40.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

128K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2025-03-12

模型预文件大小

8.6GB

开源和体验地址

代码开源状态
预训练权重开源
Gemma Terms of Use - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Gemma 3 - 4B (IT)模型在各大评测榜单的评分

发布机构

模型介绍

Gemma 3 - 4B是Google开源的第三代多模态大模型,40亿参数,这里的IT表示instruction fine-tuned版本,另外有pt的预训练基座版本: https://huggingface.co/google/gemma-3-4b-pt 


关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194 


Google DeepMind 近期发布了 Gemma 3 系列开源模型,提供从 1B 到 27B 不同参数规模的版本,涵盖文本、图像及代码任务。这些模型的核心设计目标是在消费级硬件(如笔记本、高端 GPU 和移动设备)上高效运行,同时在多语言、长上下文、数学推理和指令跟随等方面取得显著进步。


整个系列基于纯解码器 Transformer 架构,并采用 Grouped-Query Attention (GQA) 机制,同时通过局部-全局注意力层交替的设计(例如 5:1 的局部/全局比例)优化推理效率。此外,为解决长上下文带来的 KV 缓存爆炸问题,Google 采用了缩短局部注意力窗口和调节全局层 RoPE 基础频率的方案。在预训练阶段,所有模型均采用了大规模文本与图像数据,并通过知识蒸馏与后训练优化,在各项任务上展现了优异的性能。


其中,Gemma3-4B 模型作为中等参数规模的轻量级版本,在计算效率与任务适应性之间取得了良好平衡。相较于最小版本的 Gemma3-1B,它不仅具备更强的语言理解与生成能力,还增加了对多模态(文本+图像)任务的支持,同时仍然可以在较为有限的计算资源上运行。

Google 发布的 Gemma3-4B 模型解析

在 Google 发布的多个版本中,**Gemma3-4B 作为参数量适中的模型,专为需要更强计算能力但仍然关注部署成本的应用场景而设计。**它不仅继承了 Gemma 3 系列的核心架构,还通过增加视觉模块和更丰富的预训练数据,提高了多模态任务的适用性。

模型架构与设计

Gemma3-4B 延续了 Google 近年来 Transformer 模型的技术积累,并在关键组件上进行了优化,以在计算资源和推理速度之间取得平衡:

  • 解码器结构与注意力机制 该模型采用标准的 Transformer 架构,并配备 Grouped-Query Attention (GQA) 机制,同时结合后归一化(post-norm)和 RMSNorm 预归一化,以提高训练稳定性。此外,相较于前代模型,Google 用 QK-norm 替代了传统软截断(soft-capping),优化了注意力计算的数值稳定性。
  • 局部与全局注意力层交替 Gemma3-4B 采用 5:1 的局部-全局注意力交替结构,每 5 层局部自注意力层(用于短距离上下文建模)后,插入 1 层全局自注意力层(用于长距离依赖建模)。这一架构在降低 KV 缓存占用的同时,仍能保证模型处理长文本的能力。
  • 视觉模块支持 与 1B 版本不同,Gemma3-4B 集成了 417M 参数的视觉编码器,使其能够处理图像输入。这一视觉模块基于 SigLIP(Google 的优化版 CLIP),并采用 Pan & Scan (P&S) 方法来提高对不同分辨率图像的适应能力。在多模态任务(如 OCR、图文对齐等)上,该模型的表现显著优于不带视觉模块的版本。

训练细节

Google 采用了先进的训练策略,使得 Gemma3-4B 在相对较小的参数规模下,仍能达到优异的任务表现:

  • 知识蒸馏 预训练过程中,Gemma3-4B 通过从更大模型(如 12B 或 27B 版本)进行知识蒸馏,使其能够在减少计算开销的同时,保留高质量的语言理解与生成能力。
  • 训练数据与 Token 化 该模型使用了 4T tokens 进行训练,相比 1B 版本的数据规模(2T tokens)翻了一倍。这些数据不仅包含大规模的多语言文本,还增加了图像-文本对数据,以提升多模态能力。与其他 Gemma 3 版本一致,该模型采用了 Google 的 SentencePiece 分词器,词汇量达 262k,优化了对非英语语言的支持。
  • 训练基础设施 Google 使用 TPUv5e 平台 训练 Gemma3-4B,并采用 2048 个 TPU 芯片 进行数据并行计算。具体配置为 16 个数据切分、16 个序列切分和 8 个副本,确保了训练的高效性和可扩展性。

参数分布与对比

下表总结了 Google 发布的 Gemma 3 主要模型版本的参数配置,其中 4B 版本相比 1B 版本在多个维度上均有显著提升:

模型版本视觉编码器参数嵌入参数非嵌入参数上下文长度
Gemma3‑1B0302M698M32K tokens
Gemma3‑4B417M675M3209M128K tokens
Gemma3‑12B417M1012M10759M128K tokens
Gemma3‑27B417M1416M25600M128K tokens

可以看出,Gemma3-4B 相比 1B 版本的主要优势在于更大的模型规模、更长的上下文长度(128K tokens),以及对视觉任务的支持。

模型特点与评测表现

  • 多模态能力增强 相较于 1B 版本,Gemma3-4B 新增了视觉编码器,可用于处理图像输入,使其在文档理解(OCR)、图文推理等任务上表现优异。
  • 更长的上下文支持 该模型支持 128K tokens 的上下文长度,使其在长文本理解、代码生成和复杂推理任务上的表现更佳。
  • 权衡计算开销与性能 相比更大的 12B 和 27B 版本,4B 模型在计算资源占用上更具优势,同时在诸多基准测试中的表现仍优于 Gemma2-9B 版本,适合对性能与资源效率有较高要求的应用场景。

总结

Google DeepMind 发布的 Gemma3-4B 在计算效率、任务适应性和多模态能力之间取得了良好平衡,相较于 1B 版本,它提供了更强的文本理解能力,并新增了视觉模块支持,使其适用于更广泛的任务场景。同时,相较于 12B 和 27B 版本,4B 版本在推理效率和资源占用上具备显著优势,适合在云端和本地 GPU 设备上运行。

这一版本的发布,进一步丰富了 Google 开源 AI 模型生态,使得开发者可以根据应用需求,灵活选择不同规模的模型进行部署和优化。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat