一种基于维基百科的中文短文本分类算法
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类.通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息.最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证.结果表明,该算法能有效提高中文短文本分类效果.
短文本分类、维基百科、词义消歧、特征扩展
57
G350(情报学、情报工作)
2013-09-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
120-124