10.3321/j.issn:1002-8331.2005.01.056
文本自动分类中特征权重算法的改进研究
文章研究并改进了文本自动分类中的特征权重算法.传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息.该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系.实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果.
特征项、权重算法、分布信息、低频高权特征、文本分类
41
TP301.6(计算技术、计算机技术)
2005-04-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
181-184,220