期刊专题

10.13833/j.issn.1007-7634.2021.02.005

基于最大边界相关度的抽取式文本摘要模型研究

引用
[目的/意义]为得到与原文相关度高、冗余度小的摘要,本文提出一种结合深度学习的无监督抽取式文本摘要模型.[方法/过程]在最大边界相关度(Maximal Marginal Relevance,MMR)模型的基础上,利用深度学习中的词嵌入与句嵌入的文本向量表示方法计算句子之间的相似度,并根据关键词与位置信息对句子重要性的影响对句子排序,得到高质量的摘要.将本文提出的模型应用到2018 Byte Cup生成文章标题任务的数据集上验证模型效果.[结果/结论]模型抽取单句摘要的Rouge-L值为28.24%,高于传统的抽取式文本摘要算法CI(17.37%)、Tex-tRank(22.70%)和MMR(23.52%);抽取多句摘要的Rouge-L值为37.78%,高于传统的抽取式文本摘要算法CI(29.35%)、TextRank(34.15%)和MMR(31.09%);结果表明深度学习有助于提升抽取式文本摘要的效果.[创新/局限]本文创新点在于将最大边界相关度(MMR)与深度学习相结合,综合考虑句子与全文相似度、关键词以及位置信息等特征以抽取摘要;局限在于研究范围仅为抽取式文本摘要,后续研究将尝试融合抽象式文本摘要模型.

文本摘要、抽取式文本摘要、深度学习、表示学习、最大边界相关度算法

39

G254(图书馆学、图书馆事业)

教育部人文社会科学研究项目;国家自然科学基金;国家自然科学基金

2021-04-07(万方平台首次上网日期,不代表论文的发表时间)

共10页

34-43

相关文献
评论
暂无封面信息
查看本期封面目录

情报科学

1007-7634

22-1264/G2

39

2021,39(2)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn