期刊专题

基于多特征多分类器集成的专利自动分类研究

引用
[目的]为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法.[方法]使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征,分别训练朴素贝叶斯、支持向量机、AdaBoost分类器,以此构建特征-类别矩阵,并结合F1权重矩阵集成,获得最终IPC预测分类号.[结果]对2014年-2016年“发动机或泵”领域的10个小类进行分类,使用Top Prediction、All Categories和Two Guesses三种评估方法得到准确率分别为:78.9%、80.1%、91.2%.[局限]训练仅仅使用了2014年-2016年共三年的专利数据,数据规模有限.[结论]在“发动机或泵”领域,本文方法能够有效地提高专利文本分类的准确率.

专利分类、段落向量、主题向量、分类器集成

1

G250(图书馆学、图书馆事业)

国家重点研发计划项目“公共安全风险防控与应急技术装备”2016YFC0802107;北京市教育委员会科技计划面上项目项目SQKM201411417013的研究成果之一

2017-11-07(万方平台首次上网日期,不代表论文的发表时间)

共9页

76-84

暂无封面信息
查看本期封面目录

数据分析与知识发现

1003-3513

11-2856/G2

1

2017,1(8)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn