10.3969/j.issn.1000-0135.2009.01.007
XML文档相似度计算方法研究
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.
XML文档、相似度计算、Web数据管理、文本挖掘
28
TP3;R1
浙江省自然科学基金资助项目M603025
2009-02-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
48-57