Spark集群实现统计文档单词频次实例
随着计算机数据分析、数据处理技术的不断发展和完善,大数据技术在社会中的实际应用场景越来越广泛,我们的生活正处在大数据时代.例如,众多电商平台利用大数据技术实现了电商用户的数据画像.依据客户的需求导向,对客户的商品需求进行精准的定位,进一步地满足客户的实际需求,增加电商平台的产品销售量及销售利润,知名搜索引擎百度依据客户的百度搜索日志,投其所好,推送和用户浏览日志密切相关的新闻,满足用户的网络需求.大数据正在逐步地影响和改变我们的生活,该文力图对大数据技术开发环境的配置做简要的阐述,并利用Spark(一款基于内存的计算框架,运行速度比MapReduce快100倍左右)集群实现对上传至HDSF(分布式文件系统)中文档内的单词次数的统计,以此阐述大数据技术处理数据的运行流程.
大数据、Spark集群、分布式文件系统、单词次数统计
16
T311
安徽省高校自然科学研究项目项目编号:KJ2019A0998
2020-09-15(万方平台首次上网日期,不代表论文的发表时间)
共2页
33-34