引文元数据的自动发现和标注方法研究——以外文引文为例
[目的]在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索.[方法]实验中采用神经网络模型对人工分割过的语料进行词向量训练.利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象,通过支持向量机分类算法实现对元数据的自动归类和标注.[结果]在以外文引文数据作为测试集的实验中,本文方法取得了较高的准确率和召回率,特别是针对引文中含有多种语言和缩写的现象,具有较好的处理能力.[局限]在对于引文元数据时间内容的细粒度抽取中存在一定的局限性.[结论]实验结果表明,此方法在引文元数据的自动发现和标注上具有良好的效果,并能很大程度地提高方法的适用性和容错率.
引文元数据、元数据抽取、机器学习、神经网络
G254(图书馆学、图书馆事业)
2017-03-23(万方平台首次上网日期,不代表论文的发表时间)
47-54