10.13833/j.issn.1007-7634.2018.12.024
不同特征粒度在微博短文本分类中作用的比较研究
[目的/意义]随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀.如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一.[方法/过程]本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用.[结果/结论l实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现.因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法.
特征粒度、短文本、口语化文本、特征降维
36
G250.2(图书馆学、图书馆事业)
国家自然科学基金;南京大学仲英青年学者项目
2019-01-04(万方平台首次上网日期,不代表论文的发表时间)
共8页
126-133