基于自适应隐马尔可夫模型的石油领域文档分词

引用

摘要：

中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步.石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法.通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法.该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别.通过与中科院的 NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高.

关键词：中文分词、隐马尔可夫模型、组合词、石油

所属期刊栏目：45

分类号：TP391(计算技术、计算机技术)

资助基金：科技部创新方法工作:大数据环境下的油气开采创新方法研究与应用示范2015IM010300

在线出版日期：2018-08-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：97-100

英文信息展示

期刊专题