基于Transformer的汉字到盲文端到端自动转换
汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题.现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本.该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型.基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库.实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值.相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低.
汉盲转换;端到端深度学习;编码器-解码器模型;Transformer
48
TP391(计算技术、计算机技术)
国家自然科学基金项目;中国残联-中国盲人协会专项项目;广西科技项目;广西"八桂学者"专项资助
2021-11-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
136-141