10.3969/j.issn.1003-8256.2023.04.011
基于决策树算法的专利发明人姓名消歧研究
为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题.本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估.以国内通讯行业专利数据为实例的研究表明:采用该分类模型进行清洗能够有效提升数据清洗的效率和精确度.
发明人、姓名消歧、半监督学习、决策树C4.5
43
G354.2(情报学、情报工作)
国家自然科学基金;教育部人文社会科学研究项目
2023-08-29(万方平台首次上网日期,不代表论文的发表时间)
共10页
85-94