10.16652/j.issn.1004-373x.2017.09.031
基于Hadoop的网络日志挖掘方案的设计
提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案.针对现有的公开网络日志数据集,在数据预处理阶段实现了基于MapReduce的过滤算法,并且挖掘出支持企业决策的服务信息.对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询性能上的对比等方面做了实验.结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%.随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定.随着机器节点的增加,运算耗时以平均8.87%的速度减少.
网络日志、数据挖掘、数据清洗、Hadoop、MySQL
40
TN711-34;TP391.9(基本电子电路)
国家自然科学基金项目NSF61370161;贵州省科学技术基金项目黔科合J字[2010]2100;贵州大学博士基金项目贵大人基合字2009029
2017-05-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
115-120