基于分布式系统的大数据随机抽样算法的实现
Hadoop是当前处理大数据环境的一套生态系统,按照层次结构为节点内的HDFS,根据该FS特性编写的RPC,Ma-pReduce框架,Yarn管理系统,其中各层次可细分或进行全层次结构的整合,如HBase关注于数据存储方向,使用其中HDFS和RPC通讯对键值对数据进行转换并实现分布式存储,Spark关注于数据高速运算,通过高速缓存内存直接向上作用于RPC的机制和Yarn对资源的管理进行实时的分布式计算。该文根据在大数据中的快速进行有需求抽样的需求,对存储于HDFS中的大规模非结构化数据,RPC机制,及MapReduce中Map模块做深入研究。
Hadoop、大数据、随机抽样
12
TP311(计算技术、计算机技术)
国家信息安全专项项目发改办高技[2015]289号
2016-08-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
9-11