10.11684/j.issn.1000-310X.2023.01.004
基于Transformer编码器的合成语声检测系统
自动说话人认证系统是一种常用的目标说话人身份认证方案,但它在合成语声的攻击下表现出脆弱性,合成语声检测系统试图解决这一问题.该文提出了一种基于Transformer编码器的合成语声检测方法,利用自注意力机制学习输入特征内部的长期依赖关系.合成语声检测问题并不关注句子的抽象语义特征,用参数量较小的模型也能得到较好的检测性能.该文分别测试了4种常用合成语声检测特征在Transformer编码器上的表现,在国际标准的ASVspoof2019挑战赛的逻辑攻击数据集上,基于线性频率倒谱系数特征和Transformer编码器的系统等错误率与串联检测代价函数分别为3.13%和0.0708,且模型参数量仅为0.082 M,在较小参数量下得到了较好的检测性能.
自动说话人认证、合成语声检测、Transformer编码器
42
TP302.1(计算技术、计算机技术)
国家自然科学基金;中国科学院青年创新促进会项目;中国科学院声学研究所自主部署前沿探索类项目
2023-02-15(万方平台首次上网日期,不代表论文的发表时间)
共8页
26-33