10.3778/j.issn.1002-8331.2010.03.039
中文文本分类中利用依存关系的实验研究
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题.分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验.实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不能提高短文本的分类性能;可以利用依存关系作为特征扩充的手段,增加短文本的特征,增强短文本的描述能力,进而进行有效的短文本分类.
依存关系、短文本、文本分类
46
TP18(自动化基础理论)
国家自然科学基金the National Natural Science Foundation of China under Grant 60703010;重庆市自然科学基金the Natural Science Foundation of Chongqing Province of China under Grant 2006BB2374;重庆市教委科学技术研究项目KJ070519;教育部回国留学人员启动基金教外司留[2007]1109号
2010-03-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
131-133,141