10.3772/j.issn.1002-0470.2016.06.001
一种基于日志结合分析的集群系统失效预测方法
研究了大规模超级计算机群系统的失效预测.针对现有的单一分析系统日志的方法不仅需要复杂的分布式数据挖掘技术,而且失效预测的召回率普遍不高的问题,提出了一种通过将记载集群系统负载变化的作业日志同系统日志结合起来分析来进行失效预测的方法.该方法的原理如下:首先,通过对原始系统日志和作业日志进行预处理和过滤,分别得到细粒度的二维的事件序列和作业序列;然后从中抽取出在系统日志的失效事件发生前作业日志所表现出的三种典型失效征兆;最后,利用失效征兆进行失效预测.在真实的IBM BlueGene/P系统的系统日志和作业日志上的实验结果表明,基于两种日志结合分析的方法能以较高的准确率和召回率实现细粒度的失效预测.
大规模集群系统、系统日志、作业日志、日志分析、失效预测
26
TP3;TN9
863计划2015AA015308;973计划2014CB340402
2016-11-30(万方平台首次上网日期,不代表论文的发表时间)
共9页
519-527