腾讯推出的免费多模态平台,一键让图片人物“张嘴说话”,口型精准、画质高清。
1 主要功能
- 文本朗读:输入文字即可自动合成语音并驱动口型。
- 音频上传:支持本地 MP3/WAV 等格式,原声同步对口型。
- 多倍速调节:0.5×–2× 无级变速,适应快慢节奏。
- 音色库:提供 20+ 男女童声、方言、动漫角色等音色。
- 高清输出:默认 1080P、30 fps,支持横竖屏。
- 卡通/真人通吃:动漫立绘、照片、3D 渲染图均可识别。
2 技术原理
- 多模态对齐:视觉编码器+音频编码器联合训练,实现语音-口型时空映射。
- 3D 面部关键点:先估计 68/468 点面部模型,再回归唇部 20 点微表情。
- 生成式扩散模型:在潜空间完成口型序列补全,降低抖动与模糊。
- 语音特征提取:采用自研语音大模型,将音素、重音、停顿转为唇动权重。
3 应用场景
- 自媒体:让二次元角色“口播”热点,打造 IP 账号。
- 教育课件:历史照片“复活”讲解,提升课堂趣味。
- 电商营销:商品吉祥物自动口播促销,低成本做短视频。
- 方言保护:上传方言音频,生成老人照片讲母语,留存文化。
- 无障碍:为失声者生成虚拟形象,代替真人出镜直播。
4 使用方法
- 上传一张带正脸的高清图片(>400×400 px)。
- 选“文本朗读”输入 140 字以内文案,或切到“音频上传”拖入 <30 s 文件。
- 调节语速、音色,点击“立即生成”。
- 10–30 s 后预览,满意即下载 MP4;可再调参数二次生成,不限次数。
5 适用人群
- 短视频博主、动漫 UP 主
