基于Bootstrapping的因特网流量分类方法

引用

摘要：

针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡，提出基于Bootstrapping的流量分类方法，使用少量有标记样本训练初始分类器，迭代利用无标记样本扩展样本集并更新分类器.在构建扩展样本集过程中，将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件，建立新的置信度计算方法，以减少扩展样本集中的噪声样本；基于概率近似正确学习理论建立启发式规则，注重选择小类样本加入扩展样本集，缓解类别样本数分布的不平衡.实验结果表明，与初始分类器相比，基于Bootstrapping的流量分类器总体分类准确率可提高9.46%；与现有半监督学习方法相比，小类分类准确率提高2.22%.

关键词：半监督学习、类别不平衡、Bootstrapping、Internet流量分类

分类号：TP393.06(计算技术、计算机技术)

资助基金：国家自然科学基金项目61171141

在线出版日期：2014-11-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：66-70,79

英文信息展示

期刊专题