10.3778/j.issn.1002-8331.2008.09.040
基于频繁结构的XML文档聚类
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树.首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类.实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度.
XML文档聚类、最大频繁路径、最大频繁子树、层次聚类
44
TP311(计算技术、计算机技术)
福建省自然科学基金A0510020
2008-05-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
135-138,171