DOI：10.3772/j.issn.1000-0135.2016.006.002

面向本体学习的中文专利术语抽取研究

引用

摘要：

本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案.以“钢铁冶金”领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中.经过实验论证,基于字角色标注的基本术语抽取F1值高于94％,而基于合成规则的复杂术语抽取准确率也可达到75％.在7597件专利的题名和摘要文本中,最终可获得中文基本术语244 672个,合成术语61 536个,为领域本体的构建奠定了基础.

关键词：中文专利术语、机器学习、条件随机场、字角色标注、循环迭代、合成规则、本体学习

所属期刊栏目：35

分类号：TP3;TP1

资助基金：江苏省自然科学基金项目“面向专利预警的中文本体学习研究”BK20130587;国家社科重大招标项目“面向突发事件应急决策的快速响应情报体系研究”13&ZD174等的资助

在线出版日期：2016-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：573-585

英文信息展示

期刊专题