DOI：10.3772/j.issn.2095-915x.2020.05.003

基于多翻译引擎的汉语复述平行语料构建方法

引用

摘要：

复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术.目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展.针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据.基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究.我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题.为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量.我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能.实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句.同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量.

关键词：复述语料构建、汉语复述现象分类、复述生成、多任务学习、自编码任务

所属期刊栏目：6

分类号：G35(情报学、情报工作)

资助基金：国家自然科学基金;北京市自然科学基金;科学技术部国际科技合作计划

在线出版日期：2020-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：27-40

英文信息展示

期刊专题