谷歌于2025年6月27日正式发布并开源了全新的端侧多模态大模型Gemma3n。该模型专为低资源设备设计,能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行,并具备强大的多模态处理能力,支持图像、音频、视频和文本等多种输入。
一、主要功能
- 多模态输入与处理:支持文本、图像、音频和视频等多种输入模态,并生成结构化的文本输出。
- 语音识别与翻译:具备自动语音识别(ASR)和自动语音翻译(AST)功能,支持英语与西班牙语、法语、意大利语、葡萄牙语之间的高效转换。
- 图像与视频理解:配备高效视觉编码器MobileNet-V5-300M,支持多种输入分辨率,并在Google Pixel上实现每秒60帧的处理速度。
- 本地推理与隐私保护:所有推理在本地完成,无需云端连接,响应时间低至50毫秒。
- 灵活的模型尺寸:通过MatFormer架构,用户可以在E2B和E4B之间创建自定义尺寸的模型。
二、技术原理
- MatFormer架构:采用“俄罗斯套娃”式的嵌套Transformer设计,训练E4B模型时同步优化E2B子模型,用户可以根据硬件特性选择不同层。
- 每层嵌入(PLE)技术:将大部分参数在CPU上加载计算,只有核心Transformer权重存储在加速器内存中,大幅提高内存效率。
- KV缓存共享:优化长内容处理,预填充性能相比Gemma34B提升两倍,显著加快长序列处理的首个token生成时间。
- 先进编码器:音频方面采用基于通用语音模型(USM)的编码器,视觉方面配备MobileNet-V5-300M编码器。
三、应用场景
- 移动设备:在手机和平板上实现高质量的语音翻译、图像识别和视频分析。
- 智能硬件:为智能音箱、智能摄像头等设备提供强大的多模态处理能力。
- 无障碍应用:支持语音助手和无障碍应用,帮助视障人士通过语音指令获取信息。
- 教育与娱乐:在教育领域支持多语言学习,在娱乐领域提供实时字幕和语音交互。
四、使用方法
- 下载模型:从Hugging Face平台下载Gemma3n的预训练模型。
- 本地部署:通过Google AI Edge框架,将模型部署到支持的设备上。
- 微调与定制:在Google Colab上进行快速微调,适配特定任务。
- 集成开发:使用Ollama或transformers库进行测试和开发。
