期刊专题

10.13663/j.cnki.lj.2018.06.002

内容相近类目实现自动分类时相关分类技术的比较研究——以《中图法》E271和E712.51为例

引用
对《中图法》中内容极为相似的两个类别,开展基于机器学习的自动分类(两类分类)研究.以《中图法》中E271和E712.51两个类别的书目信息作为两类分类的对象,对涉及的CHI、IG和MI等特征选择法,TF和TF*IDF等加权方式,KNN、NB和SVM等分类算法等主要分类环节中的各种代表性技术的分类性能进行比较研究,为今后对《中图法》中极为相似类目开展针对性的自动分类研究提供基础数据.实验结果表明,关于特征选择法,CHI和IG的效果较佳,MI的表现稍弱,但是MI在特征数为4 000以上时,性能明显提高;关于分类算法,NB在采取MI特征选择法时表现较佳,但SVM在采取CHI和IG两种特征选择法下表现更佳,而KNN比前两者均差;关于特征加权方式,大多数情况下TF优于TF*IDF,但易受到分类算法、特征数目或特征选择法的影响.各个分类环节中的相关技术组合在一起能够适应对相似类目的自动分类,但性能上优劣不一,需要针对相似类目分类改进相关技术,以进一步提高对相似类目开展自动分类时的分类性能.

两类分类、《中国图书馆分类法》、特征选择、特征加权、文本分类

37

TP391;TP181;O212.1

2018-08-31(万方平台首次上网日期,不代表论文的发表时间)

共12页

11-21,30

暂无封面信息
查看本期封面目录

图书馆杂志

1000-4254

31-1108/G2

37

2018,37(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn