10.3778/j.issn.1002-8331.1402-0004
维吾尔文Bigram文本特征提取
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。
Bigram文本特征、χ2统计量、互信息、维吾尔语
TP391.1(计算技术、计算机技术)
国家自然科学基金No.61363064,No.61163028。
2015-02-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
216-221,228