说话人生成研究现状与发展趋势

引用

摘要：

说话人生成是视觉生成领域的热门研究方向,旨在根据输入的多模态信息生成逼真的说话人视频.说话人生成在影视传媒、游戏动漫和互联网相关产业中具有广阔的应用前景,同时也可以为唇读识别、伪造鉴别和数字人生成等任务的研究提供数据支持.现阶段主流的说话人生成方法已经能够实现包含个性化属性、视听同步的说话人视频生成,但还未能达到虚拟现实、人机交互和元宇宙等新兴应用场景的要求.因此,研究说话人生成对于推动相关产业发展具有重要意义.对说话人生成的研究现状进行梳理与总结,首先阐述了说话人生成的研究背景和相关技术,然后根据方法分类介绍了近年来主流的说话人生成方法,整理了相关研究中常用的视听数据集和评价指标,最后总结现有方法存在的问题,分析了说话人生成未来潜在的研究方向.

关键词：人脸生成、视频生成、图像生成、深度学习、多模态学习、人脸重建、深度伪造、计算机视觉

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-08-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：68-78

英文信息展示

期刊专题