期刊专题

10.3772/j.issn.2095-915x.2015.04.011

面向专利的化合物和生物实体识别系统

引用
探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其三个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了69.20%的F值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。

条件随机场、化合物和生物实体、专利挖掘、交叉验证

G350;TP311(情报学、情报工作)

国家自然科学基金项目“基于论文和专利资源的技术机会发现研究”项目编号71403255;中国科学技术信息研究重点工作项目“大数据环境下融合多源信息的科技文献智能分析服务平台建设及应用示范”编号ZD2014-7-1的资助。

2015-10-23(万方平台首次上网日期,不代表论文的发表时间)

共9页

95-103

暂无封面信息
查看本期封面目录

情报工程

2095-915X

10-1263/G3

2015,(4)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn