稀疏主成分简介
主成分分析(principal component analysis,PCA)是一种很受欢迎的统计降维方法,可将多个指标简化为少数几个不相关的综合指标.我们可以利用PCA从事物之间错综复杂的关系中找出一些主要的成分,从而有效地揭示变量之间的内在关系[1].生物信息学获取的数据往往需要降维处理,这就为PCA的应用提供了机会,例如Hastie[2]等2000年提出的“gene-shaving”就是利用PCA对基因数据进行聚类.然而基因数据往往具有“超高维”的性质,也就是说基因个数呈样本量的指数级增长,由于传统的主成分都是原始变量的线性组合,线性组合中的回归系数(因子载荷)往往是非零的,这些非零的回归系数值使得PCA的结果很难解释.事实上这也是PCA应用于高维生物信息数据分析结果解释中的一个弊端.
稀疏、线性组合、基因数据、回归系数、主成分分析、信息数据分析、生物信息学、综合指标、原始变量、应用、因子载荷、内在关系、解释、降维方法、降维处理、高维、样本量、系数值、维生物、指数
31
TP3;TP1
国家自然科学基金81072385;全国统计科研计划重点项目2009LZ033
2016-07-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
905-907