10.16157/j.issn.0258-7998.190773
一种改进的基于PCA的数据预处理方法
大数据处理项目中,数据预处理工作量要占资源消耗的60%左右,而数据规约是影响大型数据集预处理效果的主要瓶颈.主成分分析(PCA)是目前使用最广泛的数据维规约算法.使用PCA方法时要关注生成的协方差矩阵质量和特征值的选取数量.改进的PCA算法将均值计算转变为加权规范平均值计算完成中心化数据,通过Rayleigh商和Cattell碎石检验原则选择更合理的特征值数目.算法验证实验结果表明,在数据准确、完整的首要要求下,改进后的PCA算法得到的主成分能解释超过90%的原变量,但可能会牺牲部分维规约效率.
PCA、数据预处理、数据规约
46
TN919;TP391
2019年度市科技局贵阳学院科技专项GYU-KYZ2019-2020PT06-02;教育部青年基金项目18YJCZH016
2020-04-10(万方平台首次上网日期,不代表论文的发表时间)
共4页
96-99