期刊专题

10.3969/j.issn.1671-0673.2022.05.001

基于VQ-VAE与Do-Conv层的无监督语音表示学习

引用
针对在无监督条件下,对语音信号提取语音表示的问题,提出了Do-VQVAE模型.提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现,并在此基础上,引入深度方向超参数化卷积层构成编码器.该模型通过编码器-解码器的结构,以无监督的方式提取语音信号的特征,将编码器的输出通过码书的映射进行量化,得到离散的语音表示.在实验过程中还引入了互信息神经估计,旨在提高学习到的语音表示的说话人不变性.提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试,经过测试,模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低,并取得了与最好系统相媲美的结果.

语音表示、无监督、声学单元发现、ZeroSpeech挑战

23

TN912.34

国家自然科学基金;国家自然科学基金

2023-03-30(万方平台首次上网日期,不代表论文的发表时间)

共7页

513-519

暂无封面信息
查看本期封面目录

信息工程大学学报

1671-0673

41-1196/N

23

2022,23(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn