10.3778/j.issn.1002-8331.1905-0122
域信息共享的方法在蒙汉机器翻译中的应用
蒙汉翻译属于低资源语言的翻译,面临着平行语料资源稀缺的困难,为了缓解平行语料数据稀缺和词汇表受限引发的翻译正确率低的问题,利用动态的数据预训练方法ELMo(Embeddings from Language Models),并结合多任务域信息共享的Transformer翻译架构进行蒙汉翻译.利用ELMo(深层语境化词表示)进行单语语料的预训练.利用FastText词嵌入算法把蒙汉平行语料库中的上下文语境相关的大规模文本进行预训练.根据多任务共享参数以实现域信息共享的原理,构建了一对多的编码器-解码器模型进行蒙汉神经机器翻译.实验结果表明,该翻译方法比Transformer基线翻译方法在长句子输入序列中可以有效提高翻译质量.
蒙汉翻译、多任务学习、Transformer、ELMo、FastText
56
TP391(计算技术、计算机技术)
国家自然科学基金61363052;内蒙古自治区自然科学基金2016MS0605;内蒙古自治区民族事务委员会基金MW-2017-MGYWXXH-03
2020-05-22(万方平台首次上网日期,不代表论文的发表时间)
共9页
106-114