10.11925/infotech.2096-3467.2021.0852
特征融合的中文专利文本分类方法研究
[目的]为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法.[方法]基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有名词向量进行融合,并将专有名词的TF-IDF值作为权重对向量进行赋值.[结果]在自建专利文本语料库上的实验结果显示,所提方法达到84.43%的准确率、82.01%的召回率和81.23%的F1值,其中F1值相较其他方法提升约5.7个百分点.[局限]实验数据主要来源于新能源汽车领域,在其他领域中的效果有待验证.[结论]改善了数据分布不均衡以及专利文本存在大量未登录词的问题.此外,通过消融实验,评估了方法中添加专有名词与TF-IDF特征的有效性.
专利、文本分类、特征融合、BERT TF-IDF
6
TP391(计算技术、计算机技术)
国家自然科学基金;北京信息科技大学勤信人才培育计划基金项目
2022-07-21(万方平台首次上网日期,不代表论文的发表时间)
共11页
49-59