期刊专题

10.3772/j.issn.1000-0135.2016.006.002

面向本体学习的中文专利术语抽取研究

引用
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案.以“钢铁冶金”领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中.经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%.在7597件专利的题名和摘要文本中,最终可获得中文基本术语244 672个,合成术语61 536个,为领域本体的构建奠定了基础.

中文专利术语、机器学习、条件随机场、字角色标注、循环迭代、合成规则、本体学习

35

TP3;TP1

江苏省自然科学基金项目“面向专利预警的中文本体学习研究”BK20130587;国家社科重大招标项目“面向突发事件应急决策的快速响应情报体系研究”13&ZD174等的资助

2016-10-20(万方平台首次上网日期,不代表论文的发表时间)

共13页

573-585

相关文献
评论
暂无封面信息
查看本期封面目录

情报学报

1000-0135

11-2257/G3

35

2016,35(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn