深度学习框架下说话人识别研究综述

引用

摘要：

说话人识别由于其独特的方便性、经济性和准确性等优势,已成为人们日常生活与工作中重要的身份认证方式.然而在实际应用场景下,对说话人识别系统的准确性、鲁棒性、迁移性、实时性等提出了巨大的挑战.近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向.相较于传统说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等),聚焦于深度学习框架下的说话人识别方法,按照深度学习在说话人识别中的作用方式,将目前的研究分为基于深度学习的特征表达、基于深度学习的后端建模、端到端联合优化三种类别,并分析和总结了其典型算法的特点及网络结构,对其具体性能进行了对比分析.最后总结了深度学习在说话人识别中的应用特点及优势,进一步分析了目前说话人识别研究面临的问题及挑战,并展望了深度学习框架下说话人识别研究的前景,以期推动说话人识别技术的进一步发展.

关键词：说话人识别、深度学习、特征表达、模式分类、端到端

所属期刊栏目：56

分类号：TN912

资助基金：湖北省教育厅科学技术研究项目;国家自然科学基金;湖北省自然科学基金

在线出版日期：2020-04-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：8-16

英文信息展示

期刊专题