中文文本聚类常用停用词表对比研究

引用

摘要：

[目的]通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见.[方法]选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估.[结果]不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显.[局限]实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析.[结论]停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要.同时,过度增加停用词的数量并不会一直改善聚类结果.

关键词：文本聚类、停用词、K-means

分类号：TP391(计算技术、计算机技术)

资助基金：中国地震局星火计划攻关项目“面向地震应急的空间智能决策方法研究”XH15019;江苏省自然科学基金项目“面向专利预警的中文文本学习研究”项目BK20130587的研究成果之一

在线出版日期：2017-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：72-80

英文信息展示

期刊专题