10.13960/j.issn.1672-2558.2018.03.04
基于词嵌入与生成对抗网络的垃圾邮件分类算法
包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度.
垃圾邮件、生成对抗网络、词嵌入
16
TP391.4(计算技术、计算机技术)
国家自然科学基金项目61563036;南京工程学院青年基金项目QKJB201408;南京工程学院校级基金基目YKJ2014721
2018-10-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
20-27