Qwen3-Omni 是首个原生端到端全模态大模型,可同时处理文本、图像、音频、视频,并以文本或语音实时响应,支持119种语言,性能在36项基准中拿下22项SOTA。
一、主要功能
- 原生全模态融合:文本、图像、音频、视频同一模型内端到端处理,无需外挂模块。
- 实时低延迟交互:端到端音频对话延迟低至211 ms,视频对话507 ms,支持自然轮流对话。
- 超长音视频理解:可一次理解≤30 min连续音频,会议、讲座、监控片段直接转写并总结。
- 多语言覆盖:119种文本语言、19种语音输入语言、10种语音输出语言,覆盖全球主流语种。
- 外部工具调用:内置function call,可插API完成搜索、订票、数据库查询等任务。
- 开源音频字幕机:附带Qwen3-Omni-30B-A3B-Captioner,低幻觉、高细节,为任意音频生成字幕与描述。
二、技术原理
- Thinker–Talker MoE架构
- Thinker:混合专家(MoE)Transformer,统一编码文本、图像、音频、视频token,完成跨模态推理。
- Talker:轻量级MoE解码器,自回归预测多码本离散语音codec,实现流式语音合成。
-
- 统一嵌入空间
像素、波形、文本token被映射到同一语义空间,实现模态无关的注意力计算。 - AuT音频编码器
自研Audio Transformer,基于20万小时监督音频预训练,采用分块窗口注意力,支持实时缓存。 - 多码本语音方案
12.5 Hz低码率、多轨道码本+轻量因果ConvNet,替代传统扩散模型,首包延迟降至234 ms。 - 文本优先预训练→混合多模态训练
先保证文本/图像能力不降级,再增量注入音频-视频对齐数据,实现“不牺牲单模态”的多模态提升。
三、应用场景
- 实时会议助手:一边听一边说,自动生成纪要、待办、多语言字幕。
- 多语言客服:语音/文字任意输入,即时切换10种输出语音,降低呼叫中心人力成本。
- 教育录播分析:上传2小时课堂视频,模型输出带时间戳的知识点切片、板书提取、学生互动统计。
- 无障碍交流:视障用户拍照+语音提问,模型用自然语音描述场景并回答。
- 内容创作:播客、短视频一键生成多语言配音与字幕,自动对齐口型时间轴。
- IoT语音中枢:边缘盒子跑轻量版,控制家居、查询天气、识别异常声音(玻璃破碎、婴儿哭声)。
四、使用方法
- 零代码体验
- 官方Demo:访问 chat.qwen.ai 选择“qwen3-omni-flash”模型,直接上传图片/音频/视频或麦克风对话。
-
- API调用
- 阿里云百炼、Hugging Face、ModelScope均已上线;获取API Key后,通过HTTP POST发送multipart多模态请求,返回文本或音频流。
-
- 本地部署
- 安装:pip install qwen-omni-utils transformers vllm ffmpeg
-
-
