10.11925/infotech.2096-3467.2018.0003
高校网络舆情安全中主题分类方法研究——以新浪微博数据为例
[目的]通过一种特征加权方法解决高校新浪微博主题分类研究所面临的高维性和稀疏性问题.[方法]计算特征属于类别的概率,进一步预测文档属于类别的概率,使得特征由基于词的表示转换为基于类别的表示,最终采用支持向量机对转换后的特征矩阵进行分类.[结果]传统rf,tf×idf以及tf×rf三种方法在结合本文提出的方法后,在微平均F1/宏平均F1方面分别提升:7.2%/7.8%,7.5%/7.9%以及6.4%/5.7%.[局限]仅针对主题分类中特征加权方法进行探索,未对主题分类中其他部分展开研究.[结论]在高校网路舆情主题分类中,该方法可以有效地降低特征矩阵维度,同时提升分类能力与分类效率.
网络舆情安全、主题分类、特征加权、机器学习
2
TP391.1(计算技术、计算机技术)
国家自然科学基金项目“基于网络结构演化的Folksonomy模式中社群知识组织与知识涌现研究”71473035;国家自然科学基金青年科学基金项目“基于贝叶斯图模型的海量短文本数据统计推断”11501095;吉林省科技厅重点科技攻关项目“基于异构信息网络融合社会关系的电子商务推荐系统关键技术研究与开发”项目20150204040GX的研究成果之一
2018-09-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
55-62