10.3969/j.issn.1001-0548.2017.02.018
基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法
Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能.据此特性,该文提出了一种适应于中文分词的自动机算法.该算法使用动态规划的方法,计算上下文匹配概率,转移至最佳的有效后续状态,即实现了基于字符串匹配的机械分词方法与基于统计概率模型的方法结合.实验结果表明,该算法分词准确率高.
AC自动机、中文分词、动态规划、Trie树
46
TP301.6(计算技术、计算机技术)
2017-05-05(万方平台首次上网日期,不代表论文的发表时间)
共8页
426-433