中文植物物种多样性描述文本的信息抽取研究

引用

摘要：

[目的]实现中文植物物种多样性描述文本中信息的抽取.[方法]以中文植物物种多样性本体为支撑,采取语段、语句、概念逐级筛选和标注的策略,依据规则抽取描述文本中的信息.[结果]以包含4 734个信息点的样本测试,信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85.[局限]针对目前未能准确抽取的表述,进一步完善规则集.[结论]研究方案能有效地实现中文植物物种多样性描述文本的信息抽取.

关键词：信息抽取、植物物种多样性描述文本、中文信息处理、本体

分类号：G350;TP18(情报学、情报工作)

资助基金：本文系国家社会科学基金一般项目“基于无监督语义标注的网络中文学术信息抽取研究”项目编号:11BTQ024的研究成果之一.

在线出版日期：2016-03-09（万方平台首次上网日期，不代表论文的发表时间）

页码：87-96

英文信息展示

期刊专题