10.13266/j.issn.0252-3116.2019.11.012
基于序列到序列模型的抽象式中文文本摘要研究
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOv),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究.[方法/过程]在序列到序列(sequence to sequence,seq2 seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题.将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果.[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量.
抽象式文本摘要、序列到序列模型、注意力机制、覆盖机制、指向生成机制
63
TP391(计算技术、计算机技术)
国家自然科学基金面上项目“大数据环境下基于领域知识获取与对齐的观点检索研究”71373286;教育部哲学社会科学研究重大课题攻关项目“提高反恐怖主义情报信息工作能力对策研究”17JZD034
2019-06-03(万方平台首次上网日期,不代表论文的发表时间)
共10页
108-117