10.3969/j.issn.1002-3674.2021.04.020
结合通路信息对复杂疾病进行表型预测的SGL方法
目的 将整合通路信息的sparse group LASSO方法与近年来发表的表型预测方法进行比较,通过模拟各种复杂疾病可能的遗传结构,比较各方法的预测能力,期望通过TCGA数据找到高效和稳健的统计方法.方法 本研究利用SGL方法整合基因途径信息和基因表达数据,并与传统模型(LASSO、Enet、GSSLASSO)进行比较.通过乳腺癌真实基因型数据模拟表型数据:考虑不同分组(分组k=50,200,300,328)和不同遗传度对模型的影响(遗传度h2=0.3,0.5,0.8).采用相关系数R评价几种模型的预测能力,进一步通过结直肠癌(CRC)、胰腺癌(PAAD)、乳腺癌(BRCA)三个真实数据比较各方法表型预测的准确性.结果 模拟结果表明,随着遗传度的增高,各方法的预测准确性也逐渐增高.整合通路信息的SGL方法和GSSLASSO方法比传统的LASSO和Enet方法有着更高的预测精度.而两种整合通路信息的方法中,SGL方法有着更好的预测能力和稳定性.在50,200,300分组情况下,GSSLASSO预测效果和LASSO以及Enet相近,但是在考虑通路信息的328分组下,GSSLASSO表现出了较好的预测效果.实例数据分析CRC,PAAD数据中,SGL方法具有最优的预测精度,其次是GSSLASSO,LASSO和Enet方法预测效果最差.结论 整合通路信息的预测方法预测效果明显优于一般模型,而无论是在模拟数据还是实例数据中SGL的方法具有最优的预测精度.
遗传风险预测;基因表达;KEGG通路
38
R195.1(保健组织与事业(卫生事业管理))
2021-10-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
556-558,562