10.3772/j.issn.1673-2286.2022.05.007
英文文献的《中图法》分类号自动标注研究 ——基于文本增强与类目映射策略
给英文文献自动标注《中图法》分类号,能减轻图书馆与文献数据库工作人员的负担,促进跨语言知识检索与中外知识交流.面对既有的标注《中图法》分类号的英文文献数据不足的问题,本文面向预训练语言模型BERT,提出中文文献机器翻译、原始英文文本插入标点或语法词以增强分类模型泛化能力等文本增强策略,以及《美国国会图书馆分类法》到《中图法》的类目映射策略扩充文本数据.实验表明,3种策略均能有效提高文本分类效果.通过上述策略,分类的正确率与宏F1值分别提升约6.1个百分点与7.4个百分点.最后开发并发布了一个小程序,实现给英文文献自动、批量标注《中图法》20类一级分类号的功能.
预训练语言模型、《中国图书馆分类法》、机器翻译、文本增强、类目映射
G250.2(图书馆学、图书馆事业)
2022-07-01(万方平台首次上网日期,不代表论文的发表时间)
共8页
39-46