Stemming和Lemmatization对英文文本聚类的影响研究
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
词干化、词形还原、文本聚类、信息检索
35
TP311.13(计算技术、计算机技术)
教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”08JJD870225;南京大学研究生科研创新基金资助项目“中英双语文本聚类技术及其应用研究”2011CW12
2012-09-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
109-113