搭建基于云计算的开源海量数据挖掘平台
通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析.实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作Hadoop虚拟服务器模板、配置运行Cloudera和Cloudera Desktop.通过开源EMR架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性.
云计算、海量数据挖掘、虚拟技术、分布式计算、Xen、Cloudera、Hadoop
TP393(计算技术、计算机技术)
*
2011-02-28(万方平台首次上网日期,不代表论文的发表时间)
76-81