基于改进LLE的高维数据离散化方法
连续特征值离散化在数据挖掘、机器学习和模式识别等领域显得尤为重要.目前,现有的离散化方法主要处理低维数据,然而,现实世界中往往存在的是高维非线性数据.基于此,提出一种基于改进局部线性嵌入(LLE)的高维数据离散化方法——ILLE-HD3方法.首先,通过考虑数据的类信息对LLE方法进行改进,使其有效降维,以便于数据在低维空间中离散化.其次,在降维的基础上,提出了基于差异-相似集合(DSS)的连续特征值离散化算法,该算法利用类与特征之间的关联程度来决定连续城中断点的选取位置,并通过DSS理论定义分类错误标准,以控制连续域划分过程中产生的信息损失.最后,使用决策树分类工具C4.5和C5.0进行性能分析,结果表明,提出的ILLE-HD3方法处理高维非线性数据时具有较好的效果,与现有的方法相比,得到了较高的分类精度.
高维数据、局部线性嵌入、离散化、类-特征相互关联、差异-相似集合
42
TP18(自动化基础理论)
广东省省级教学管理A类课题20120101005;广东省经济和信息化委员会项目201210110600232
2015-09-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
146-150,157