10.3321/j.issn:1002-8331.2007.03.052
基于内容和分层结构的XML文件自动分类方法
提出了一种以XML文件内在的分层结构为基础的文件分类方法,并与改良的VSM方法的实验结果进行了比较.和以往XML文件的分类方法不同的是,此方法更加注重XML文件特有的结构信息.首先利用TF-IDF方法针对XML文件非结构的信息产生一般特征集,然后再针对XML文件各个层次重要性赋予一定的权重,从而产生层次特征集,然后根据一些领域知识,产生知识特征集,将三个特征集结合起来对XML进行分类.试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高.
特征词、文件自动分类、分层结构
43
TP311(计算技术、计算机技术)
2007-03-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
168-172,193