DOI：10.3969/j.issn.1000-0135.2009.01.007

XML文档相似度计算方法研究

引用

摘要：

XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.

关键词：XML文档、相似度计算、Web数据管理、文本挖掘

所属期刊栏目：28

分类号：TP3;R1

资助基金：浙江省自然科学基金资助项目M603025

在线出版日期：2009-02-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：48-57

英文信息展示

期刊专题