基于云平台日志的故障检测和复杂构件系统即时可靠性度量研究
可靠性、可用性和安全性是软件质量度量的3个重要指标,而软件可靠性是软件质量最重要的指标.传统的软件可靠性评估将软件系统看作一个整体或者将软件系统调用结构视为静态结构.现今的软件结构发生了很多的改变,典型的有自主、协同、演进、动态和自适应等特征,已经渗入到当前的复杂网络结构软件系统中,传统的可靠性评估和预测方法已经不能适应当前复杂网络生态环境下的软件系统.在当前"软件定义一切"的高速信息化社会中,海量的信息系统产生了大规模的数据资源.现代信息系统的异构性、并行性、复杂性以及巨大的规模导致了日志资源的多样和复杂,基于系统日志的精准分析和故障预测对构建安全可靠的系统尤为重要.现有文献研究故障预测和软件可靠性的技术颇多,但是较少针对海量日志以及复杂构件进行软件即时可靠性度量.文中在系统分析日志解析、特征提取、故障检测、预测评估到即时可靠性计算的日志处理全过程中,使用集成学习模型对海量系统日志进行分析和故障预测,与传统的机器学习方法进行了比较,提高了故障预测的准确率、召回率和F1值;针对预测召回率低的情况,采用召回率修正即时可靠性的评估,较大程度地提高了即时可靠性的精度;根据个体的可靠性,通过基于马尔可夫理论的系统可靠性度量微服务复合构件的可靠性,从而为智能化运维提供精确的数据基础和故障定位依据.
日志解析、故障检测、可靠性评估、根因分析、集成学习、复杂构件
49
TP311.5(计算技术、计算机技术)
陕西省科技攻关;陕西省重点研发项目;河南省工业科学技术研究项目;国家自然科学基金
2022-12-29(万方平台首次上网日期,不代表论文的发表时间)
共11页
125-135