期刊专题

基于大数据和机器学习的微博用户行为分析系统

引用
网络舆论对一个社会的发展有着不可忽视的作用,因此不免会有因"网络舆情"控制网民的思想动态从而发生极端事件的可能.故此,笔者研究分析了国内外大数据、机器学习等相关技术的发展现状及未来趋势.在结合国内外的理论研究成果及相关技术的基础上,融合Spider、Spark、Machine Learning、Spring MVC等多种技术,设计与实现了基于大数据和机器学习的微博用户行为分析系统.该文在对系统进行详细分析的基础上,实现了系统中的三个主要实体:Spider、Spark、web服务器,并对大范围或定向数据抓取、自然语言处理、实时处理推送、NB训练、Apriori训练、FP-Growth训练、注册登录、情感分析等功能进行了实现.整个系统利用Scrapy爬虫框架自定义实现多线程和分布式的数据抓取与存储,并在Spark上离线训练NB、Apriori、和FP-Growth机器学习算法并且进行实时计算处理,与Hdfs、Scrapy爬虫、Hbase和Ora-cle数据库不断进行交互,进而改变爬虫抓取方式获得定向的更详细的用户信息来进行深入分析,最终形成针对用户行为的一个能进行自我学习的评判体系.通过Spring MVC技术开发高效的服务器端、Bootstrap、Echarts美化前端展示.最后对基于大数据和机器学习的微博用户行为分析系统进行测试,该系统能够完成预期的功能目标.

Scrapy、Spark、NB、Apriori、FP-Growth、SpringMVC

13

TP393(计算技术、计算机技术)

2017-06-14(万方平台首次上网日期,不代表论文的发表时间)

共3页

212-213,216

暂无封面信息
查看本期封面目录

电脑知识与技术

1009-3044

34-1205/TP

13

2017,13(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn