10.3772/j.issn.2095-915x.2017.03.009
深度学习在统计机器翻译领域自适应中的应用研究
统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题.为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的.目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签.本研究在本组之前研究基础上利用深度学习中卷积神经网络(Convolutional neural network,CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中.本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU打分的翻译结果,证明了本研究的有效性和可行性.
统计机器翻译、训练语料选取、卷积神经网络、深度学习
3
G35;TP391.41(情报学、情报工作)
国家自然科学基金项目61303152、71503240和71403257;中国科学技术信息研究所重点工作项目ZD2017-4
2017-08-04(万方平台首次上网日期,不代表论文的发表时间)
共13页
64-76