期刊专题

10.3778/j.issn.1002-8331.1906-0149

通信垃圾文本识别的半监督学习优化算法

引用
在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS).利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作为检测器和自体集,对两者进行异常匹配;使用否定选择密度聚类算法对样本相似性进行评估,改进传统的下采样方法,使用NBSVM分类器对采样后的通信样本进行垃圾识别;使用PCA对样本所具有的信息量进行评估,提出改进的PCA-SGD算法对模型参数进行调优,完成通信垃圾文本的半监督识别任务.为了验证改进算法的优越性,使用不平衡通信文本等多个数据集,在否定选择密度聚类、NSDC-DS算法、PCA-SGD与传统模型上进行对比分析.实验结果表明,改进的模型不仅具有较好的通信垃圾文本识别能力,而且具有较快和稳定的收敛速度.

非平衡数据、垃圾文本识别、否定选择密度聚类、基于否定选择密度聚类的下采样算法(NSDC-DS)、基于主成分分析的随机梯度下降(PCA-SGD)算法

56

TP391(计算技术、计算机技术)

吉林省科技发展计划技术攻关项目;吉林省教育厅"十三五"科学技术项目

2020-09-08(万方平台首次上网日期,不代表论文的发表时间)

共8页

121-128

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

56

2020,56(17)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn