Qwen3-Omni 是首个原生端到端全模态大模型,可同时处理文本、图像、音频、视频,并以文本或语音实时响应,支持119种语言,性能在36项基准中拿下22项SOTA。
一、主要功能
  1. 原生全模态融合:文本、图像、音频、视频同一模型内端到端处理,无需外挂模块。
  2. 实时低延迟交互:端到端音频对话延迟低至211 ms,视频对话507 ms,支持自然轮流对话。
  3. 超长音视频理解:可一次理解≤30 min连续音频,会议、讲座、监控片段直接转写并总结。
  4. 多语言覆盖:119种文本语言、19种语音输入语言、10种语音输出语言,覆盖全球主流语种。
  5. 外部工具调用:内置function call,可插API完成搜索、订票、数据库查询等任务。
  6. 开源音频字幕机:附带Qwen3-Omni-30B-A3B-Captioner,低幻觉、高细节,为任意音频生成字幕与描述。
二、技术原理
  1. Thinker–Talker MoE架构
    • Thinker:混合专家(MoE)Transformer,统一编码文本、图像、音频、视频token,完成跨模态推理。
    • Talker:轻量级MoE解码器,自回归预测多码本离散语音codec,实现流式语音合成。
  2. 统一嵌入空间
    像素、波形、文本token被映射到同一语义空间,实现模态无关的注意力计算。
  3. AuT音频编码器
    自研Audio Transformer,基于20万小时监督音频预训练,采用分块窗口注意力,支持实时缓存。
  4. 多码本语音方案
    12.5 Hz低码率、多轨道码本+轻量因果ConvNet,替代传统扩散模型,首包延迟降至234 ms。
  5. 文本优先预训练→混合多模态训练
    先保证文本/图像能力不降级,再增量注入音频-视频对齐数据,实现“不牺牲单模态”的多模态提升。
三、应用场景
  1. 实时会议助手:一边听一边说,自动生成纪要、待办、多语言字幕。
  2. 多语言客服:语音/文字任意输入,即时切换10种输出语音,降低呼叫中心人力成本。
  3. 教育录播分析:上传2小时课堂视频,模型输出带时间戳的知识点切片、板书提取、学生互动统计。
  4. 无障碍交流:视障用户拍照+语音提问,模型用自然语音描述场景并回答。
  5. 内容创作:播客、短视频一键生成多语言配音与字幕,自动对齐口型时间轴。
  6. IoT语音中枢:边缘盒子跑轻量版,控制家居、查询天气、识别异常声音(玻璃破碎、婴儿哭声)。
四、使用方法
  1. 零代码体验
    • 官方Demo:访问 chat.qwen.ai 选择“qwen3-omni-flash”模型,直接上传图片/音频/视频或麦克风对话。
  2. API调用
    • 阿里云百炼、Hugging Face、ModelScope均已上线;获取API Key后,通过HTTP POST发送multipart多模态请求,返回文本或音频流。
  3. 本地部署