10.11896/j.issn.1002-137X.2016.2.053
基于语义的文档特征提取研究方法
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响.现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足.利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词.以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法.
特征词、语义距离、信息增益、文本分类
43
TP391(计算技术、计算机技术)
国家高新技术研究发展计划2009AA062802;国家自然科学基金60473125;中国石油CNPC石油科技中青年创新基金05E7013;国家重大专项子课题G5800-08-ZS-WX
2016-05-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
254-258