10.3969/j.issn.1671-0673.2022.05.001
基于VQ-VAE与Do-Conv层的无监督语音表示学习
针对在无监督条件下,对语音信号提取语音表示的问题,提出了Do-VQVAE模型.提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现,并在此基础上,引入深度方向超参数化卷积层构成编码器.该模型通过编码器-解码器的结构,以无监督的方式提取语音信号的特征,将编码器的输出通过码书的映射进行量化,得到离散的语音表示.在实验过程中还引入了互信息神经估计,旨在提高学习到的语音表示的说话人不变性.提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试,经过测试,模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低,并取得了与最好系统相媲美的结果.
语音表示、无监督、声学单元发现、ZeroSpeech挑战
23
TN912.34
国家自然科学基金;国家自然科学基金
2023-03-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
513-519