不均衡数据集上文本分类的特征选择研究

引用

摘要：

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.

关键词：不均衡数据集、特征选择、文本分类、信息检索

所属期刊栏目：44

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60473002;60603094;北京市自然科学基金4051004

在线出版日期：2008-06-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：58-62

英文信息展示

期刊专题