DOI:10.7544/issn1000-1239.2016.20148275大数据集成中确定数据准确属性值的WR方法下载全文在线阅读引用分享分享到微信朋友圈打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈收藏摘要:大数据集成是提供高质量数据以进行决策的基础,集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR (weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.关键词:大数据集成、数据质量、数据准确性、数据清洗、权重规则所属期刊栏目:53分类号:TP311(计算技术、计算机技术)资助基金:国家“九七三”重点基础研究发展计划基金项目2014CB340403;国家电网公司研究项目EPRIPDKJ[2014]3763号This work was supported by the National Basic Research Program of China 973 Program2014CB340403;the Project of State Grid Corporation of China Research ProgramEPRIPDKJ[2014]3763在线出版日期:2016-06-01(万方平台首次上网日期,不代表论文的发表时间)页数:共10页页码:449-458 英文信息展示收起英文信息