自适应确定摘要长度
随着信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法.在这些众多的算法中,都有一个共同的现象--摘要的长度均需事先给定.然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息量也是不同的.为了能够全面地反映信息样本的主题思想,又不产生信息冗余,就要求根据具体信息样本,动态地确定与该样本信息量相适应的结果摘要长度.据此,提出了一种自适应于不同样本的、动态确定摘要长度的算法,从具体样本中循序渐进地抽取出其所包含的所有子主题,这些子主题的集合构成了该信息样本的主题思想.然后,再根据子主题的数量确定摘要的长度,既全面地反映了信息样本的内容,又不会产生信息冗余.另外,还提出了新的互依赖模型,使用该模型可以使切词的结果较为准确,并可有效地降维,从而大幅度减少摘要长度确定算法中的计算量.
自动摘要、互依赖、摘要长度、N-gram
41
TP391(计算技术、计算机技术)
国家自然科学基金60173027
2004-06-04(万方平台首次上网日期,不代表论文的发表时间)
共8页
399-406