10.3321/j.issn:1002-8331.2007.03.055
中文垃圾邮件过滤系统中的实时分词算法设计
在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节.面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈.对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法.该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率.
中文分词、垃圾邮件、TRIE树
43
TP393(计算技术、计算机技术)
天津市信息化建设项目042023012
2007-03-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
179-181,184