10.3969/j.issn.1002-137X.2004.12.039
基于二次熵的互信息特征选取方法的研究
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础·提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能.
Web文本分类、特征选取、互信息
31
TP3;TP1
国家重点基础研究发展计划973计划G1998030414
2005-01-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
135-136,168