基于核方法的XML文档自动分类
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML 文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果.
XML文档、文档分类、核函数、支持向量机、文档模型
34
TP311(计算技术、计算机技术)
国家自然科学基金60642001,60875033;国家"八六三"高技术研究发展计划项目基金2008AA01Z421
2011-06-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
353-359