10.3969/j.issn.1000-0135.2003.04.011
基于K-近邻方法的科技文献分类
本文提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法.分析了科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器.最后分别进行了基于最近邻决策和K-邻近决策的分类效果实验研究,实验证明基于欧氏距离相似性测度和基于余弦相似性测度的文本分类效果并不存在显著的差别,K-邻近决策的分类效果要优于最近邻决策的分类效果.
文本分类、最近邻、K-近邻、相似性测度
22
G25(图书馆学、图书馆事业)
2003-09-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
451-456