10.3778/j.issn.1002-8331.1203-0002
基于改进最大匹配算法的中文分词粗分方法
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
中文分词、最大匹配、广义词、诱导词集
TP391.12(计算技术、计算机技术)
国家自然科学基金No.70773052。
2014-01-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
124-128