10.3321/j.issn:1000-0054.2001.07.012
补偿型的Sleeping expert文本分类算法
多义词是影响文本分类的重要因素,由于它可代表分属不同类别的多个概念,造成类别之间界限模糊。传统作法是对多义词的权重进行弱化以减小它们对于分类的影响,但文本分类是基于内容的,且多义词也代表组成文本内容的特定概念,所以简单地对多义词进行弱化是不合理的。Sleeping expert算法采用正权重和负权重较好地描述了多义词的特性,该文在原算法中插入了一种权重补偿模块,它根据上下文对关键词的统计权重进行动态修正,其目标是实现权重和当前概念的一致性,实验证明这种补偿型Sleeping expert具有更好的分类性能。
文本分类、相关度、补偿、正权重
41
TP391.3(计算技术、计算机技术)
国家科技攻关项目96-743-01-05-01
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
39-42