基于LASSO的FDR控制方法及其在高维数据生存分析中的应用
目的 基于LASSO-Cox模型探索交叉验证(cross validation)、pcvl法(penalized cross-validated log-likelihood)、EBIC准则(extended bayesian information criterion)、平稳选择(stability selection)四种方法在控制FDR(false discovery rate)方面的表现及其变量选择效果.方法 通过模拟研究评价各方法在不同删失比例、自变量间不同相关程度以及回归系数的不同稀疏水平下的FDR和PSR(positive select rate),并从GEO上下载DLBCL数据进行基因与预后间的关联分析.结果 模拟结果表明,在不同删失比例、自变量相关程度和稀疏水平的情况下,平稳选择法控制fdr的能力都优于其他方法且其变量选择效能也较高.EBIC准则在相关程度低、自变量较稀疏时表现较好,当样本量较小时结果较保守.pcvl法虽然不容易漏掉有效应的变量,但其FDR仍较高.实例结果显示,EBIC准则只选出1个基因,平稳选择法选出的基因中大部分有统计学意义且与其他方法的结果重合度高.结论 在基于LASSO-Cox模型的高维数据生存分析中平稳选择法能较好地控制FDR且其变量选择效能也较高.
LASSO、生存分析、调整参数、错误发现率
35
国家自然科学基金项目81473073
2018-08-01(万方平台首次上网日期,不代表论文的发表时间)
共8页
322-329