DOI：10.11925/infotech.2096-3467.2020.0137

不均衡数据集下基于CNN的中图分类标引方法

引用

摘要：

[目的]提高类间分布不均匀数据下中图分类标引的精度.[方法]提出一种使用卷积神经网络(CNN)作为融合分类器的分类方法,相比于其他Stacking融合方法,本方法将各基模型的分类标签概率分布信息堆叠后作为CNN输入,无须人工设置基模型权重.[结果]实验以中图分类法G4下三级类目为例,结果显示,本方法对不均衡中图类目的平均标引准确率达60％,相比于基线模型,本方法的分类精度有19％的绝对提升.[局限]在方法设计上依赖卷积神经网络中卷积核的设计,只能通过实验确定效果最佳的网络结构;融合阶段训练分类器的复杂度会随着类目数量和基模型数量的增加而增加.[结论]本方法可有效提高不均衡数据集下的标引精度,可与层级分类策略结合使用,实现中图全类目的自动化分类标引.

关键词：分类标引、数据不均衡、CNN、Stacking

所属期刊栏目：4

分类号：TP391;G35(计算技术、计算机技术)

资助基金：本文系中国工程科技知识中心建设项目“知识组织体系建设”;中国科学技术信息研究所重点工作项目“多模态知识图谱构建关键技术研究”

在线出版日期：2020-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：87-95

英文信息展示

期刊专题