一、简介
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
二、主要功能
  1. 全模态输入:文本、图像、音频、视频一次性投喂,无需额外编码器。
  2. 实时双输出:流式文本与自然人声同步生成,支持 19 种语音输入、10 种语音输出。
  3. 混合推理:内置“快思考-秒级响应 / 慢思考-深度推理”双模式,可动态切换。
  4. 细粒度控制:通过系统提示词即可调节语速、音色、情感、输出格式,无需微调。
  5. 附件能力:开源音频字幕模型 Qwen3-Omni-Captioner,直接生成低幻觉、高细节的声音描述。
三、技术原理
  1. Thinker-Talker MoE 架构:Thinker 负责多模态语义理解,Talker 专注语音 token 建模,两路专家网络稀疏激活,降低 70% 推理算力。
  2. AuT 预训练:Audio-text 交替训练策略,先文本后音频再混合,保证文本/图像精度不下降的同时提升音视频 SOTA 表现。
  3. 多码本量化:采用分层离散码本表示语音, streaming 阶段并行解码,端到端延迟 <500 ms。
  4. 四阶段训练流程:长链冷启动→强化学习→思维模式融合→通用对齐,兼顾推理深度与对话流畅度。
  5. 128 K 长上下文 + Flash-Attention 2:单轮可处理 1 小时音频或 300 页文档,显存占用仅为同性能模型 1/3。
四、应用场景
  1. 实时会议:多语种同声传译、自动纪要、说话人区分。
  2. 教育直播:老师板书+讲解同步生成可搜索字幕与语音回放。
  3. 客服中心:电话语音直接输出结构化工单,支持方言与嘈杂环境。
  4. 无障碍:为视障用户朗读网页、描述视频画面;为听障用户把语音实时转文字并高亮关键信息。
  5. 内容创作:一键把 4K 视频生成多语言配音与字幕,保持口型同步。
五、使用方法
  1. 在线体验:登录“通义听悟”网页或阿里云 DashScope API,上传文件即可返回文本+语音。
  2. 本地部署:
    a. 拉取官方 Docker:docker pull qwenllm/qwen3-omni:latest
    b. 单卡 24G 可跑 30B-A3B MoE 版:docker run --gpus all -p 8000:8000 qwenllm/qwen3-omni
    c. 通过 OpenAI-compatible 接口调用,代码零改动。
  3. 高级定制:
    a. 克隆 GitHub 仓库,使用 ms-swift 框架做 LoRA 微调,仅需 8×A100 训练 3 小时即可让模型学会私有领域术语。
    b. 修改 system prompt 控制输出风格,例如“用 10 岁小朋友能听懂的中文回答”。
六、适用人群
  • 开发者:需要一站式语音+文本+视觉能力的 SaaS 或 APP 后台。
  • 企业客服:想用一个模型解决 IVR、工单、质检、翻译全部环节。
  • 教育/媒体机构:批量生产多语言可访问内容。