自适应确定摘要长度

引用

摘要：

随着信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法.在这些众多的算法中,都有一个共同的现象--摘要的长度均需事先给定.然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息量也是不同的.为了能够全面地反映信息样本的主题思想,又不产生信息冗余,就要求根据具体信息样本,动态地确定与该样本信息量相适应的结果摘要长度.据此,提出了一种自适应于不同样本的、动态确定摘要长度的算法,从具体样本中循序渐进地抽取出其所包含的所有子主题,这些子主题的集合构成了该信息样本的主题思想.然后,再根据子主题的数量确定摘要的长度,既全面地反映了信息样本的内容,又不会产生信息冗余.另外,还提出了新的互依赖模型,使用该模型可以使切词的结果较为准确,并可有效地降维,从而大幅度减少摘要长度确定算法中的计算量.

关键词：自动摘要、互依赖、摘要长度、N-gram

所属期刊栏目：41

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60173027

在线出版日期：2004-06-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：399-406

英文信息展示

期刊专题