结构化集成学习垃圾邮件过滤
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24 min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.0055).
垃圾邮件过滤、结构化集成学习、多域结构、线性组合权、轻量基分类器、TREC垃圾邮件任务
49
TP391.1(计算技术、计算机技术)
国家自然科学基金项目60873097,60933005;国家"八六三"高技术研究发展计划基金项目2010AA012505
2012-05-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
628-635