10.3969/j.issn.1006-2475.2021.05.016
面向不平衡数据集的应用系统识别方法
针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别.具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别.通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题.
应用识别、不平衡数据、基尼增益、过采样、分类问题
TP391.4(计算技术、计算机技术)
国家自然科学基金61872385
2021-06-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
93-97,111