基于多策略原型生成的低资源神经机器翻译

引用

摘要：

资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能.

关键词：神经机器翻译、低资源、多策略、原型

所属期刊栏目：34

分类号：TP18(自动化基础理论)

资助基金：国家重点研发计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;云南省重大科技专项;云南省高新技术产业专项;云南省自然科学基金

在线出版日期：2023-11-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：5113-5125

英文信息展示

期刊专题