腾讯推出的免费多模态平台,一键让图片人物“张嘴说话”,口型精准、画质高清。
1 主要功能
  • 文本朗读:输入文字即可自动合成语音并驱动口型。
  • 音频上传:支持本地 MP3/WAV 等格式,原声同步对口型。
  • 多倍速调节:0.5×–2× 无级变速,适应快慢节奏。
  • 音色库:提供 20+ 男女童声、方言、动漫角色等音色。
  • 高清输出:默认 1080P、30 fps,支持横竖屏。
  • 卡通/真人通吃:动漫立绘、照片、3D 渲染图均可识别。
2 技术原理
  • 多模态对齐:视觉编码器+音频编码器联合训练,实现语音-口型时空映射。
  • 3D 面部关键点:先估计 68/468 点面部模型,再回归唇部 20 点微表情。
  • 生成式扩散模型:在潜空间完成口型序列补全,降低抖动与模糊。
  • 语音特征提取:采用自研语音大模型,将音素、重音、停顿转为唇动权重。
3 应用场景
  • 自媒体:让二次元角色“口播”热点,打造 IP 账号。
  • 教育课件:历史照片“复活”讲解,提升课堂趣味。
  • 电商营销:商品吉祥物自动口播促销,低成本做短视频。
  • 方言保护:上传方言音频,生成老人照片讲母语,留存文化。
  • 无障碍:为失声者生成虚拟形象,代替真人出镜直播。
4 使用方法
  1. 上传一张带正脸的高清图片(>400×400 px)。
  2. 选“文本朗读”输入 140 字以内文案,或切到“音频上传”拖入 <30 s 文件。
  3. 调节语速、音色,点击“立即生成”。
  4. 10–30 s 后预览,满意即下载 MP4;可再调参数二次生成,不限次数。
5 适用人群