DOI：10.11896/j.issn.1002-137X.2019.08.009

一种可指定分布的海量数据生成方法

引用

摘要：

受到隐私保护等因素的影响,企业和政府数据公开缓慢;同时,由于网络带宽的限制,科研机构下载使用海量公开数据存在困难.现有的数据生成工具很少能在生成数据的分布形态、相关关系、准确性以及系统的可伸缩性等方面同时满足科研工作的要求.针对海量数据生成问题,提出了一种分布式数据生成模型,根据用户配置中指定的数据分布形态及相关关系,利用蓄水池抽样或随机采样算法对Web信息知识库进行采样、相关关系计算以及拼接等操作,生成数据属性符合用户配置的数据.通过在Apache Spark分布式计算引擎上进行数据生成实验,结果表明,生成数据符合指定的数据分布及相关关系要求,数据生成速度与数据规模、集群规模呈线性关系,从而证明该方法生成的数据具有较高的准确性和分布多样性,相应的系统具有较好的可伸缩性.

关键词：数据生成、蓄水池抽样、分布式计算、相关关系计算、数据分布检验

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61772081;北京市教委科研计划项目KM201711232014

在线出版日期：2019-09-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：56-63

英文信息展示

期刊专题