中文植物物种多样性描述文本的信息抽取研究
[目的]实现中文植物物种多样性描述文本中信息的抽取.[方法]以中文植物物种多样性本体为支撑,采取语段、语句、概念逐级筛选和标注的策略,依据规则抽取描述文本中的信息.[结果]以包含4 734个信息点的样本测试,信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85.[局限]针对目前未能准确抽取的表述,进一步完善规则集.[结论]研究方案能有效地实现中文植物物种多样性描述文本的信息抽取.
信息抽取、植物物种多样性描述文本、中文信息处理、本体
G350;TP18(情报学、情报工作)
本文系国家社会科学基金一般项目“基于无监督语义标注的网络中文学术信息抽取研究”项目编号:11BTQ024的研究成果之一.
2016-03-09(万方平台首次上网日期,不代表论文的发表时间)
87-96