科技文献关键词冗余解决方案研究
提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N—gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。
科技文献关键词、冗余、语义相似度、特征降维
G250.73(图书馆学、图书馆事业)
2012-04-28(万方平台首次上网日期,不代表论文的发表时间)
34-39