基于大数据和机器学习的微博用户行为分析系统
网络舆论对一个社会的发展有着不可忽视的作用,因此不免会有因"网络舆情"控制网民的思想动态从而发生极端事件的可能.故此,笔者研究分析了国内外大数据、机器学习等相关技术的发展现状及未来趋势.在结合国内外的理论研究成果及相关技术的基础上,融合Spider、Spark、Machine Learning、Spring MVC等多种技术,设计与实现了基于大数据和机器学习的微博用户行为分析系统.该文在对系统进行详细分析的基础上,实现了系统中的三个主要实体:Spider、Spark、web服务器,并对大范围或定向数据抓取、自然语言处理、实时处理推送、NB训练、Apriori训练、FP-Growth训练、注册登录、情感分析等功能进行了实现.整个系统利用Scrapy爬虫框架自定义实现多线程和分布式的数据抓取与存储,并在Spark上离线训练NB、Apriori、和FP-Growth机器学习算法并且进行实时计算处理,与Hdfs、Scrapy爬虫、Hbase和Ora-cle数据库不断进行交互,进而改变爬虫抓取方式获得定向的更详细的用户信息来进行深入分析,最终形成针对用户行为的一个能进行自我学习的评判体系.通过Spring MVC技术开发高效的服务器端、Bootstrap、Echarts美化前端展示.最后对基于大数据和机器学习的微博用户行为分析系统进行测试,该系统能够完成预期的功能目标.
Scrapy、Spark、NB、Apriori、FP-Growth、SpringMVC
13
TP393(计算技术、计算机技术)
2017-06-14(万方平台首次上网日期,不代表论文的发表时间)
共3页
212-213,216