10.3321/j.issn:1002-8331.2005.05.031
基于N元汉字串模型的文本表示和实时分类的研究与实现
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统.对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类.由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项.实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的.该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍.该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果.
文本分类、中文信息处理、向量空间模型、N元汉字串、关键词匹配
41
TP391.12(计算技术、计算机技术)
2005-04-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
88-91