期刊专题

10.13266/j.issn.0252-3116.2019.11.012

基于序列到序列模型的抽象式中文文本摘要研究

引用
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOv),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究.[方法/过程]在序列到序列(sequence to sequence,seq2 seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题.将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果.[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量.

抽象式文本摘要、序列到序列模型、注意力机制、覆盖机制、指向生成机制

63

TP391(计算技术、计算机技术)

国家自然科学基金面上项目“大数据环境下基于领域知识获取与对齐的观点检索研究”71373286;教育部哲学社会科学研究重大课题攻关项目“提高反恐怖主义情报信息工作能力对策研究”17JZD034

2019-06-03(万方平台首次上网日期,不代表论文的发表时间)

共10页

108-117

相关文献
评论
暂无封面信息
查看本期封面目录

图书情报工作

0252-3116

11-1541/G2

63

2019,63(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn