期刊专题

Stemming和Lemmatization对英文文本聚类的影响研究

引用
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。

词干化、词形还原、文本聚类、信息检索

35

TP311.13(计算技术、计算机技术)

教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”08JJD870225;南京大学研究生科研创新基金资助项目“中英双语文本聚类技术及其应用研究”2011CW12

2012-09-11(万方平台首次上网日期,不代表论文的发表时间)

共5页

109-113

暂无封面信息
查看本期封面目录

情报理论与实践

1000-7490

11-1762/G3

35

2012,35(7)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn