DOI：10.3969/j.issn.1009-6434.2015.07.017

互联网信息库新词识别技术研究

引用

摘要：

提出了一种基于网页链接文本的新词识别方法。该方法的设计初衷一方面是为了避免使用大规模的语料库，另一方面是在分析了网页链接文本的特点的基础上认为网页链接较适合作为新词识别的语料库。该方法的思路是：首先解析出网页文本中的链接文本；对链接文本进行基本的分词；对分词后的词或单字进行频次统计，并计算相邻两词或单字的互信息值，如果互信息值大于某个阂值则认为该相邻的词或单字组成了一个新词：最后对识别出的新词进行自动和人工两步排错处理。

关键词：互联网、信息库、更新、搜索

分类号：TP393.09(计算技术、计算机技术)

在线出版日期：2015-09-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：19-19,21

期刊专题