期刊专题

10.3778/j.issn.1002-8331.2207-0352

两级U-Net波束形成网络的3D语音增强算法

引用
3D混响环境中的噪声对很多下游应用不利,开发适用于现实相近场景的3D语音增强技术,在实际生活中具有重要的理论意义和实用价值.针对此场景提出了一种用于3D语音增强的两级波束形成网络.该网络由两个连续的多输入单输出U-Net波束形成网络组成.第一级网络主要对来自双麦克风的3D语音信号进行波束形成粗估计,滤除部分信号噪声.为进一步改进估计,第二级网络则将粗估计信号的特征连同原始信号内全向信道信息特征作为输入,进行波束形成细估计,以得到更精确的估计信号,达到两级增强的目的.数据集和实验基于L3DAS22挑战赛的3D语音增强任务.该方法在盲测试集上获得的短时客观可懂度(short-time objective intelligibility,STOI)为0.925,字错误率(word error rate,WER)达到13.6%,明显优于L3DAS21 3D语音增强挑战赛中的冠军模型(0.878和21.2%).

语音增强、3D语音信号、深度学习、波束形成

59

TP183;TN912.35(自动化基础理论)

国家自然科学基金;江西省教育厅科技项目;南昌航空大学博士启动基金;南昌航空大学研究生创新基金项目

2023-11-27(万方平台首次上网日期,不代表论文的发表时间)

共8页

128-135

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

59

2023,59(22)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn