10.3969/j.issn.1671-1815.2008.09.048
中文搜索引擎中的分词技术研究
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径.如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显.对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词.
中文分词、未登录词识别、最短路径、共首字歧义词概率、窗口移动法
8
TP391.3(计算技术、计算机技术)
2008-07-14(万方平台首次上网日期,不代表论文的发表时间)
共4页
2481-2483,2506