10.3778/j.issn.1002-8331.1605-0320
基于子模式的关系数据到图数据ETL方法研究
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库.然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题.国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题.因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法.该方法将关系数据库模式拆分为若干个子模式,并行进行ETL.不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据.最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证.结果表明,改进后的ETL方法获得了较已有方法更好的转化性能.
图数据库、分布式存储、ETL(数据提取、转换和加载)、子模式
53
TP311(计算技术、计算机技术)
国家自然科学基金61170222
2017-07-04(万方平台首次上网日期,不代表论文的发表时间)
共9页
76-84