DOI：10.16652/j.issn.1004-373x.2017.09.031

基于Hadoop的网络日志挖掘方案的设计

引用

摘要：

提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案.针对现有的公开网络日志数据集,在数据预处理阶段实现了基于MapReduce的过滤算法,并且挖掘出支持企业决策的服务信息.对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询性能上的对比等方面做了实验.结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%.随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定.随着机器节点的增加,运算耗时以平均8.87%的速度减少.

关键词：网络日志、数据挖掘、数据清洗、Hadoop、MySQL

所属期刊栏目：40

分类号：TN711-34;TP391.9(基本电子电路)

资助基金：国家自然科学基金项目NSF61370161;贵州省科学技术基金项目黔科合J字[2010]2100;贵州大学博士基金项目贵大人基合字2009029

在线出版日期：2017-05-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：115-120

英文信息展示

期刊专题