Gemma 3 - 1B (IT)
发布时间: 2025-03-12
128K tokens
多模态大模型
2025-03-12
2GB
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
关于Gemma3 系列详细的介绍参考DataLearnerAI的博客: https://www.datalearner.com/blog/1051741769941194
Gemma3-1B(IT)是10亿参数规模版,IT表示Instruction Fine-Tuned,即指令微调版本,Google也开源未作微调的基座预训练版本,参考: https://huggingface.co/google/gemma-3-1b-pt
Google DeepMind 最近发布了全新的 Gemma 3 系列模型,这一系列涵盖了从 1B 到 27B 参数的多个版本,面向文本、图像乃至代码的多模态处理任务。整个系列专为在消费级硬件(如手机、笔记本及高端 GPU)上高效运行而设计,不仅支持扩展上下文、提升多语言能力,还在数学推理和指令跟随等方面实现了显著提升。例如,虽然大部分版本支持 128K tokens 的长上下文能力,但参数规模最小的版本——Gemma3‑1B 则专门针对资源受限场景进行了优化,仅支持 32K tokens 的上下文长度。
整体上,Google 发布的 Gemma 3 系列延续了纯解码器 Transformer 的架构,采用了 Grouped-Query Attention (GQA) 机制,并通过局部与全局注意力层的交替设计(如 5:1 的局部/全局比例),有效降低了长上下文推理时 KV 缓存的内存开销。同时,在预训练中,模型利用了大规模文本和图像数据,并通过知识蒸馏与后训练策略,在各项任务上实现了全面性能提升。
在 Google 发布的多个版本中,Gemma3‑1B 作为参数量最小的模型,专为轻量化应用场景设计。尽管规模相对较小,该模型依然继承了 Gemma 3 系列的核心架构与训练理念,旨在为资源受限设备提供高效推理能力。
Gemma3‑1B 基于解码器 Transformer 架构,沿用了 Google 之前版本中的多项创新设计:
在预训练阶段,Google 采用了与之前版本类似的训练配方,同时针对小模型的特点进行了专门调整:
下表摘自技术报告中的参数统计,展示了不同模型版本的参数分布情况:
模型版本 | 视觉编码器参数 | 嵌入参数 | 非嵌入参数 | 上下文长度 |
---|---|---|---|---|
Gemma3‑1B | 0 | 302M | 698M | 32K tokens |
Gemma3‑4B | 417M | 675M | 3209M | 128K tokens |
Gemma3‑12B | 417M | 1012M | 10759M | 128K tokens |
Gemma3‑27B | 417M | 1416M | 25600M | 128K tokens |
可以看出,Gemma3‑1B 在轻量化设计上做出了明显取舍,取消了视觉模块并缩短了上下文处理能力,从而更适合资源受限的应用场景。
尽管参数量较小,Gemma3‑1B 依然展示了 Google 发布的 Gemma 3 系列的多项技术优势:
关注DataLearnerAI微信公众号,接受最新大模型资讯