一种基于半监督学习的短文本分类方法
针对短文本的特征词较少、信息关联性不强以及存在大量样本的标注瓶颈问题,传统的文本分类方法已不能较好地直接适用.将半监督学习思想引入到文本分类过程中,提出一种基于半监督学习的短文本分类方法,通过使用外部网络知识库来扩充短文本特征,构建基于半监督学习的分类模型,使用初始分类器进行迭代自学习实现训练样本中未标注部分的充分利用,从而解决标注瓶颈,提高分类器的性能.对比实验表明,该方法能够提升短文本分类的效果.
半监督学习、文本分类、短文本、自训练
TP391.1(计算技术、计算机技术)
2013-05-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
30-35