10.3321/j.issn:0469-5097.2001.02.003
WILD:基于加权信息损耗的离散化算法
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值.基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测度,以克服决策树算法离散不均衡的问题.该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度.实验结果表明该算法能够提高机器学习算法的精度.
机器学习、离散化、熵
37
TP18(自动化基础理论)
国家自然科学基金69873031
2008-05-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
148-153