文献关键词链接标引方法研究
[目的]以本体管理与服务平台为基础,利用三元组获取和自然语言处理技术实现中文科技文献的自动标引.[方法]通过Web Services接口将本体知识库和词汇资源集成到标注模块中,利用词典匹配和分词组合方法分别获取文献中的领域词和未登录词,并与本体知识库中的三元组建立链接,形成领域概念关系网络.[结果]通过语料测试,系统能以86篇/秒的较快速度进行文献标引和词汇链接,并达到65%的全面率和69%的准确率.[局限]词典加载后未做索引,匹配计算耗时过多,空格、断行等噪声数据对文本的分词处理和词性判断产生影响.[结论]数据清洗流程和关键词筛选算法改善后,可以进一步提高标引效率,为深度挖掘文本提供支撑.
Web服务、文本标注、关键词标引、三元组链接
TP391.1(计算技术、计算机技术)
本文系中国科学技术信息研究所重点工作项目“结构化知识服务平台建设及应用”项目编号:ZD2015-2和国家自然科学基金项目“面向特定情报分析应用的知识组织系统快速构建关键问题研究”项目编号:71203208的研究成果之一.
2015-10-23(万方平台首次上网日期,不代表论文的发表时间)
31-37