DOI：10.3969/j.issn.1002-137X.2007.07.041

基于句子级最大频繁单词集的Web文档聚类研究

引用

摘要：

Web文档聚类是Web挖掘的一个重要研究方向.现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息.为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项.在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类.在此过程中,使用可变精度粗糙集模型计算每个类的特征向量.实验结果表明,本文提出的算法优于传统的文档聚类算法.

关键词：Web文档聚类、粗糙集、关联规则、最大频繁单词集

所属期刊栏目：34

分类号：TP3(计算技术、计算机技术)

在线出版日期：2007-10-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：154-157,164

英文信息展示

期刊专题