期刊专题

10.12141/j.issn.1000-565X.220740

基于行业词表的自动语音转写后优化技术

引用
自动语音识别(ASR)技术目前已发展得较为成熟,通用ASR引擎已经广泛应用于交通、医疗、通信等行业.但是,由于行业专有词汇在大规模训练语料库中呈非独立同态分布,通用ASR引擎在各细分行业转写时存在对行业专有词汇识别准确率低的问题.相较于互联网环境的16 kHz音频采样率,电话呼叫中心语音为窄带低采样(采样率8 kHz),转写后精度下降尤为明显.为了提高行业词汇的语音转写准确率,文中提出一种基于行业词表的ASR转写后优化技术.首先,对语料库文本数据分别采用卷积神经网络模型和深度神经网络BERT模型进行预测分词,生成行业纠错词表.随后,在生产环境中,使用通用ASR引擎对电话呼叫语音数据进行初始转写.然后,对一次转写后的文本,通过Soft-Masked BERT模型结合纠错词表实现文本数据的纠错,从而提高语音识别准确率.使用广州12345热线客服通话语音数据进行训练和测试,结果表明,使用文中的转写后优化技术可以将通用ASR引擎的行业用词转写准确率提高约10个百分点,且纠错速度较快,具有良好的适用性.

文本纠错、语音识别、客服通话、行业纠错词表、卷积神经网络

51

TP391.1(计算技术、计算机技术)

2023-08-21(万方平台首次上网日期,不代表论文的发表时间)

共8页

118-125

相关文献
评论
暂无封面信息
查看本期封面目录

华南理工大学学报(自然科学版)

1000-565X

44-1251/T

51

2023,51(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn