基于N-Gram的计算机病毒特征码自动提取的改进方法
随着计算机技术的发展和普及,计算机病毒带来的危害日趋严重.传统N-Gram算法难以提取不同长度的特征,导致有效特征缺失,并产生庞大的特征集合,造成空间的浪费.针对这些问题,提出一种改进的基于N-Gram的特征码自动提取方法.该方法在原有N-Gram特征提取算法的基础上引入变长N-Gram特征,提取不同长度的有效特征,生成不定长病毒特征码.综合考虑特征频率的相关性,利用特征浓度对N-Gram特征进行有向筛选,生成数据字典,节省存储空间.实验结果表明,与单纯使用定长N-Gram的算法相比,该方法能有效降低特征码自动提取的误报率.
N-Gram、病毒特征码、特征浓度、数据字典
44
TP309.5(计算技术、计算机技术)
2018-01-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
338-341,361