基于训练集局部加权的C4.5算法改进研究
C4.5算法采用信息增益率来构造决策树,克服了选择较多值的属性的趋向,具有处理连续属性的能力.在处理大数据集时,表现出效率较低,忽略样本集中的不同样本与测试数据的距离差异.该文提出了一种基于训练集局部加权的C4.5改进算法,根据欧式距离或汉明距离来定义样本的权值,将权值更新到训练集中,重新计算的信息增益率反映了训练样本的差异对测试数据的影响,并且在处理大数据集时,根据权值排序和设置的阈值简化数据集,降低了计算复杂度,提高效率.
C4.5、信息增益比、局部加权、数据集、邻近距离
12
TP391(计算技术、计算机技术)
2016-08-01(万方平台首次上网日期,不代表论文的发表时间)
共3页
202-204