10.3321/j.issn:1002-0470.2006.08.004
基于累积Logistic 回归分析的文本段落聚类策略研究
提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘段落内的特征,并采用累积Logistic 回归分析方法来拟合这些特征与段落相似度之间的内在关联,使得段落相似度计算的结果更为理想.最后采用层次聚合聚类算法中的complete-link方法对段落集合进行聚类处理.通过网络真实文本进行了段落相似度度量实验和段落聚类实验,实验结果显示了方法的可行性.
多特征融合、累积Logistic 回归分析、段落相似度计算、段落聚类
16
TN91
国家高技术研究发展计划863计划2002AA117010-09;国家自然科学基金60435020
2006-10-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
789-794