期刊专题

10.11897/SP.J.1016.2015.01755

基于上下文感知实体排序的缺失数据修复方法

引用
大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差。传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据。基于互联网的缺失值修复过程一般包括生成查询、检索文档集、抽取实体、实体排序4个步骤,其中候选实体的排序决定了最终用于修复数据库的信息。现有的利用互联网数据来修复缺失数据的研究主要集中在两个方面:一是提升查询和抽取的质量,然后对抽取的候选实体按频率进行排序;另一种是分析目标实体应该具有的特征,然后对候选实体计算特征值,最后用权值叠加进行排序。这两类方法都只是考虑了实体自身的因素,而忽略了实体之间的影响。文中针对候选实体的排序建立了图模型,基于该图模型提出了上下文相关的实体排序算法 CER(Context-aware Entity Ranking),该算法能够把候选实体在网页中的上下文特征充分利用起来并用实体间的影响来推断新信息,从而得到更准确的排序结果。基于真实数据集的实验结果表明,相较于频率统计和权值叠加的实体排序算法,CER 算法能利用互联网的海量数据对关系数据库中的缺失值进行更加有效的修复。

数据库缺失值修复、互联网、图、实体排序

TP311(计算技术、计算机技术)

国家“九七三”重点基础研究发展规划项目基金2012CB316203;国家自然科学基金61332006,61472321;西北工业大学基础研究基金3102014JSJ0013,3102014JSJ0005资助.This work is supported by the National Basic Research Program973 programof China under Grant No.2012CB316203, the National Natural Science Foundation of China under Grant Nos.61332006,61472321 and the NWPU Basic Research Foundation

2015-10-08(万方平台首次上网日期,不代表论文的发表时间)

共12页

1755-1766

相关文献
评论
暂无封面信息
查看本期封面目录

计算机学报

0254-4164

11-1826/TP

2015,(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn