10.3969/j.issn.1000-0135.2007.03.005
基于标记树的XML文档自动分类研究
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求.随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法.在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式.从实验结果可以看出,该分类方法准确率较高.
文本分类、XML文档、层次权重、结构权重
26
G35(情报学、情报工作)
浙江大学曙光青年项目205000-362221;浙江省教育厅资助项目205204-F30501
2007-07-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
350-355