基于规则的机构名规范化研究
[目的]改善基于海量数据的科技评价中的数据可靠性问题,克服相似度匹配或者频率统计方法在机构名称规范化方面存在的缺陷.[方法]提出基于低词面相似度的机构名称映射算法,该算法采用规则和统计相结合的策略实现多个机构名称到一个机构实体的映射,从而达到机构名规范化的目的.[结果]实验结果表明,基于规则的算法的F值平均为55.50%,高于其他两种技术策略.[局限]对低词面相似度机构名识别存在不足.[结论]在机构名规范方面的综合表现要优于其他两种技术策略,但在检全率方面还需要改进.
机构名规范化、作者名消歧、机构名聚类、学术评价
G312(科学研究工作)
本文系国家社会科学基金项目“基于社区发现的学术Web主题显著度研究”项目编号:13CTQ031的研究成果之一.
2015-06-29(万方平台首次上网日期,不代表论文的发表时间)
57-63