DOI：10.3778/j.issn.1002-8331.2008.09.040

基于频繁结构的XML文档聚类

引用

摘要：

研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树.首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类.实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度.

关键词：XML文档聚类、最大频繁路径、最大频繁子树、层次聚类

所属期刊栏目：44

分类号：TP311(计算技术、计算机技术)

资助基金：福建省自然科学基金A0510020

在线出版日期：2008-05-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：135-138,171

英文信息展示

期刊专题