期刊专题

中文文本聚类常用停用词表对比研究

引用
[目的]通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见.[方法]选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估.[结果]不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显.[局限]实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析.[结论]停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要.同时,过度增加停用词的数量并不会一直改善聚类结果.

文本聚类、停用词、K-means

TP391(计算技术、计算机技术)

中国地震局星火计划攻关项目“面向地震应急的空间智能决策方法研究”XH15019;江苏省自然科学基金项目“面向专利预警的中文文本学习研究”项目BK20130587的研究成果之一

2017-05-22(万方平台首次上网日期,不代表论文的发表时间)

共9页

72-80

暂无封面信息
查看本期封面目录

数据分析与知识发现

1003-3513

11-2856/G2

2017,(3)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn