基于稀疏表示的多文档自动摘要
文档自动摘要是自然语言处理领域中的重要任务,受限于难以准确理解文档语义,大多通过词频、关键词等人工特征对文档句子进行重要程度排序,以此提取摘要.受稀疏表示理论启发,提出了一种基于稀疏表示的动态语义空间划分算法.算法对初始划分的语义子空间进行字典学习,利用所得字典对所有句向量进行稀疏重构,从而将各句向量动态调整至重构误差最小的划分,迭代地实现语义空间的重划分.对于划分后语义子空间内摘要句的提取,提出了一种基于稀疏相似度排序的自动摘要提取算法.将各语义子空间的所有句向量作为字典原子,通过稀疏重构,得到能体现句子对其他句子语义表征程度的稀疏相似度,以各句累积稀疏相似度作为衡量句子表征空间语义信息能力的指标,依据其排序来提取摘要句.在猫途鹰网站热门景点旅游评论数据集上进行了实验,结果表明语义空间重构误差快速迭代5次即可稳定收敛且平均有效降低重构误差约17%,且算法对数据维度不敏感,所提摘要避免了重复提取冗余度大、重复性高的文本,是一种有效的自动摘要方法.
自动摘要、字典学习、稀疏重构
47
TP391.1(计算技术、计算机技术)
国家自然科学基金;浙江省自然科学基金;国家级大学生创新创业训练计划-基于自然语言处理的智能阅读模型
2020-12-03(万方平台首次上网日期,不代表论文的发表时间)
共9页
97-105