10.3969/j.issn.1002-1965.2012.07.034
两种相似度计算方法对KNN分类效果的影响研究
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度.以Jensen-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响.多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间.
文本自动分类、分类效果、最邻近算法、相似度、余弦值、Jensen-Shannon、散度
31
TP391.1(计算技术、计算机技术)
2012-10-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
177-181,176