10.3969/j.issn.1000-0135.2008.03.001
一种基于主题词表的快速中文文本分类技术
针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平.
文本分类、主题词表、键树、哈希函数、增益权值
27
G35;TP3
国家自然科学基金资助项目60673193;湖南省教育厅重点项目07A067;湖南省教育厅一般项目07C750;湘潭大学跨学科星火项目0609016
2008-12-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
323-327