DOI：10.13833/j.issn.1007-7634.2021.02.005

基于最大边界相关度的抽取式文本摘要模型研究

引用

摘要：

[目的/意义]为得到与原文相关度高、冗余度小的摘要,本文提出一种结合深度学习的无监督抽取式文本摘要模型.[方法/过程]在最大边界相关度(Maximal Marginal Relevance,MMR)模型的基础上,利用深度学习中的词嵌入与句嵌入的文本向量表示方法计算句子之间的相似度,并根据关键词与位置信息对句子重要性的影响对句子排序,得到高质量的摘要.将本文提出的模型应用到2018 Byte Cup生成文章标题任务的数据集上验证模型效果.[结果/结论]模型抽取单句摘要的Rouge-L值为28.24％,高于传统的抽取式文本摘要算法CI(17.37％)、Tex-tRank(22.70％)和MMR(23.52％);抽取多句摘要的Rouge-L值为37.78％,高于传统的抽取式文本摘要算法CI(29.35％)、TextRank(34.15％)和MMR(31.09％);结果表明深度学习有助于提升抽取式文本摘要的效果.[创新/局限]本文创新点在于将最大边界相关度(MMR)与深度学习相结合,综合考虑句子与全文相似度、关键词以及位置信息等特征以抽取摘要;局限在于研究范围仅为抽取式文本摘要,后续研究将尝试融合抽象式文本摘要模型.

关键词：文本摘要、抽取式文本摘要、深度学习、表示学习、最大边界相关度算法

所属期刊栏目：39

分类号：G254(图书馆学、图书馆事业)

资助基金：教育部人文社会科学研究项目;国家自然科学基金;国家自然科学基金

在线出版日期：2021-04-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：34-43

英文信息展示

期刊专题