10.11896/j.issn.1002-137X.2015.1.053
基于Bagging-SVM集成分类器的网页作弊检测
网页作弊不仅造成信息检索质量下降,而且给互联网的安全也带来了极大的挑战.提出了一种基于Bag-ging-SVM集成分类器的网页作弊检测方法.在预处理阶段,首先采用K-means方法解决数据集的不平衡问题,然后采用CFS特征选择方法筛选出最优特征子集,最后对特征子集进行信息熵离散化处理.在分类器训练阶段,通过Bagging方法构建多个训练集并分别对每个训练集进行SVM学习来产生弱分类器.在检测阶段,通过多个弱分类器投票决定测试样本所属类别.在数据集WEBSPAM-UK2006上的实验结果表明,在使用特征数量较少的情况下,本检测方法可以获得非常好的检测效果.
网页作弊、集成分类器、特征选择、信息熵、弱分类器
42
TP181(自动化基础理论)
四川省学术和技术带头人后备人选培养基金X800912371309
2015-02-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
239-243