基于分布式系统的大数据随机抽样算法的实现

引用

摘要：

Hadoop是当前处理大数据环境的一套生态系统，按照层次结构为节点内的HDFS，根据该FS特性编写的RPC，Ma-pReduce框架，Yarn管理系统，其中各层次可细分或进行全层次结构的整合，如HBase关注于数据存储方向，使用其中HDFS和RPC通讯对键值对数据进行转换并实现分布式存储，Spark关注于数据高速运算，通过高速缓存内存直接向上作用于RPC的机制和Yarn对资源的管理进行实时的分布式计算。该文根据在大数据中的快速进行有需求抽样的需求，对存储于HDFS中的大规模非结构化数据，RPC机制，及MapReduce中Map模块做深入研究。

关键词：Hadoop、大数据、随机抽样

所属期刊栏目：12

分类号：TP311(计算技术、计算机技术)

资助基金：国家信息安全专项项目发改办高技[2015]289号

在线出版日期：2016-08-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：9-11

期刊专题