谷歌开源端侧多模态大模型Gemma3n：低资源设备上的AI新突破|谷歌开源端侧多模态大模型Gemma3n：低资源设备上的AI新突破是什么- AI工具箱，AI研究室

谷歌开源端侧多模态大模型Gemma3n：低资源设备上的AI新突破

该模型专为低资源设备设计，能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行，并具备强大的多模态处理能力，支持图像、音频、视频和文本等多种输入。

收藏 24

访问网站

国家：

中国

公司：

未知(请自行搜索)

版本：

网页版/App

访问：

可直接访问

难度：

简单

收费标准：

免费额度; 订阅制

免费额度：

每日免费额度

单次价格：

免费~1元/次

适用人群：

AI爱好者、相关领域从业者

用户评价：

这款AI工具在细分领域有一定特色，适合有相关需求的用户。建议先试用免费版再决定是否付费。

简介

谷歌于2025年6月27日正式发布并开源了全新的端侧多模态大模型Gemma3n。该模型专为低资源设备设计，能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行，并具备强大的多模态处理能力，支持图像、音频、视频和文本等多种输入。

一、主要功能

多模态输入与处理：支持文本、图像、音频和视频等多种输入模态，并生成结构化的文本输出。
语音识别与翻译：具备自动语音识别（ASR）和自动语音翻译（AST）功能，支持英语与西班牙语、法语、意大利语、葡萄牙语之间的高效转换。
图像与视频理解：配备高效视觉编码器MobileNet-V5-300M，支持多种输入分辨率，并在Google Pixel上实现每秒60帧的处理速度。
本地推理与隐私保护：所有推理在本地完成，无需云端连接，响应时间低至50毫秒。
灵活的模型尺寸：通过MatFormer架构，用户可以在E2B和E4B之间创建自定义尺寸的模型。

二、技术原理

MatFormer架构：采用“俄罗斯套娃”式的嵌套Transformer设计，训练E4B模型时同步优化E2B子模型，用户可以根据硬件特性选择不同层。
每层嵌入（PLE）技术：将大部分参数在CPU上加载计算，只有核心Transformer权重存储在加速器内存中，大幅提高内存效率。
KV缓存共享：优化长内容处理，预填充性能相比Gemma34B提升两倍，显著加快长序列处理的首个token生成时间。
先进编码器：音频方面采用基于通用语音模型（USM）的编码器，视觉方面配备MobileNet-V5-300M编码器。

三、应用场景

移动设备：在手机和平板上实现高质量的语音翻译、图像识别和视频分析。
智能硬件：为智能音箱、智能摄像头等设备提供强大的多模态处理能力。
无障碍应用：支持语音助手和无障碍应用，帮助视障人士通过语音指令获取信息。
教育与娱乐：在教育领域支持多语言学习，在娱乐领域提供实时字幕和语音交互。

四、使用方法

下载模型：从Hugging Face平台下载Gemma3n的预训练模型。
本地部署：通过Google AI Edge框架，将模型部署到支持的设备上。
微调与定制：在Google Colab上进行快速微调，适配特定任务。
集成开发：使用Ollama或transformers库进行测试和开发。

五、适用人群