期刊专题

10.3969/j.issn.1006-2475.2016.12.010

基于数据块混合度量的加速K-近邻分类方法

引用
针对标准K-近邻分类方法( K-Nearest Neighbor, KNN)在新样本类别预测过程中需要计算新样本与所有已标记样本距离而导致分类效率低,不能有效处理大规模数据分类的问题,本文提出一种基于数据块混合度量的加速K-近邻分类( KNN Method Based on Data Block Mixed Measurement, KNN_DBM2)方法。该方法将数据块的混合度量引入K-NN的预测类别过程,首先将已标记的数据划分为不同的数据块,计算每个数据块的中心及数据块的混合度,当待测样本进入时,计算待测样本与所有数据块中心的距离,并选择距离待测样本最近的k个数据块,若k个数据块均为纯数据块,则根据中心标签并采用少数服从多数的原则对待测样本打标签,若存在混合度较高的数据块,则计算待测样本与该混合数据块所有样本的距离及与其他纯的数据块中心的距离,并选择最近的k个样本或中心对待测样本打标签。通过这种数据块划分及混合度量的方式,可以减少需要计算的待测样本与其他已标记样本距离的个数,提高K-近邻分类方法的预测性能。实验结果表明,本文提出的KNN_DBM2方法能够获得较高的样本预测速度和较好的预测准确率。

K-近邻、数据块、混合度量、预测性能、KNN_DBM2算法

TP18(自动化基础理论)

2017-01-16(万方平台首次上网日期,不代表论文的发表时间)

共4页

47-50

暂无封面信息
查看本期封面目录

计算机与现代化

1006-2475

36-1137/TP

2016,(12)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn