2025年3月12日,Google DeepMind团队正式发布Gemma 3大模型。通过技术报告可以发现,27B参数的Gemma 3性能甚至能超过671B的DeepSeek V3。大模型技术的发展果然是越来越快了,具体原理及性能可参考技术报告

一、核心特性

  • 提供4种参数版本:1B/4B/12B/27B,其中4B及以上版本为多模态模型(支持图像+文本输入)。

  • 采用改进型Transformer架构,融合Gemini 2.0核心技术。

  • 视觉模块集成定制版SigLIP编码器,实现图像到软标记的智能转换。

二、技术创新

1、多模态突破

  • 创新性"Pan and Scan"图像处理技术,支持不同分辨率/宽高比的视觉输入。
  • 将图像嵌入压缩为256维向量,降低75%的视觉推理成本。

2、语言处理增强

  • 上下文窗口扩展至32K tokens。
  • 支持128种语言的跨语言理解。

3、部署优化

  • 1B版本可在移动端实现实时推理(Pixel 9实测响应时间<300ms)。
  • 27B版本在单块H100 GPU上完成10亿token推理仅需2.3小时。

三、性能表现

1、基准测试

  • MMLU评测:27B版本得分89.7,超越DeepSeek-V3(88.1)和Llama3.1-405B(87.9)。
  • HELM多模态评测:图像-文本关联准确率达92.3%。

2、实际应用

  • 在Google Pixel 10原型机上实现端侧实时多模态交互。
  • 工业级PC(RTX 4090)可流畅运行12B参数版本。

 

Logo

一站式 AI 云服务平台

更多推荐