10.3969/j.issn.1002-137X.2005.01.051
基于主题区域发现的中文自动文摘研究
自动文摘是自然语言处理领域的一项重要的研究课题.文中提出了一种基于主题区域发现的中文自动文摘的方法.该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛盾.通过采用K-medoids的聚类算法联同新的自定义目标函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题区域的发现及其在自动文摘领域的应用.此外,一种基于表达熵的新的评价因子被用来评价摘要的冗余.实验结果验证了该方法的可行性,有效性,是对中文自动文摘研究的一种有意义的探索.
自动文摘、主题区域发现、聚类分析、表达熵
32
TP3;I2
中国国家语言文字应用委员会国家语委应用项目ZDI105-43B;湖北省自然科学基金2001ABB012
2005-03-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
177-181