01.07.24 | 21:58 PM
阿里巴巴DreamTalk 发布测试链接
BY 媒介360
DreamTalk 是一种基于扩散的音频驱动的富有表现力的头像生成框架,可以生成跨风格说话的高质量头像视频。

该模型在各种输入上都有不错的表现,包括歌曲、多种语言的语音、嘈杂的音频和域外肖像。该团队的论文称,扩散模型在生成具富有表现力的头部头像时,未得到充分探索, DreamTalk 的框架刚好可以填补这一空白。

DreamTalk 由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器。

实验结果表明,通过三项技术结合的方式,DreamTalk 能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作,超越了现有的同类产品。
advertisement