10.3772/j.issn.2095-915x.2015.04.011
面向专利的化合物和生物实体识别系统
探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其三个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了69.20%的F值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。
条件随机场、化合物和生物实体、专利挖掘、交叉验证
G350;TP311(情报学、情报工作)
国家自然科学基金项目“基于论文和专利资源的技术机会发现研究”项目编号71403255;中国科学技术信息研究重点工作项目“大数据环境下融合多源信息的科技文献智能分析服务平台建设及应用示范”编号ZD2014-7-1的资助。
2015-10-23(万方平台首次上网日期,不代表论文的发表时间)
共9页
95-103