基于虚拟教师蒸馏模型的说话人确认方法

引用

摘要：

无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署.针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV).同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的.基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4％.与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性.

关键词：虚拟教师知识蒸馏、动态激活函数、附加角裕度损失函数、模型压缩、说话人确认

所属期刊栏目：58

分类号：TN912.34

资助基金：河北省自然科学基金面上项目;河北省高等学校科学技术研究重点项目

在线出版日期：2022-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：198-203

英文信息展示

期刊专题