基于We b的重复属性自动识别方法

引用

摘要：

在建立数据仓库的过程中，需要从多个数据源导入数据。这些数据存在大量相似重复记录，严重影响了数据利用率和决策质量。因此，相似重复记录的检测已经成为数据仓库等领域的热点研究问题，而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于We b的重复属性自动识别算法，该算法使用搜索引擎返回的摘要和URL信息计算属性相似度，并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。

关键词：重复属性识别、Web搜索、摘要、URL、查询探针

分类号：TP31(计算技术、计算机技术)

资助基金：国家“973”重点基础发展规划基金No.2012CB316203；西北工业大学研究生种子基金No.Z2013125，No.Z2013126。

在线出版日期：2015-05-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：125-128

英文信息展示

期刊专题