10.3969/j.issn.1002-3674.2022.06.010
控制混杂因素的基于随机森林方法评价
目的 在高维组学研究中,混杂因素常常影响着随机森林筛选出与研究结局相关联的变量的能力,因此控制混杂因素具有非常重要的作用.方法 通过模拟试验和实例验证,我们比较了以下四种方法在筛选与研究结局相关联的变量中控制混杂因素的效果:随机森林(random forest,RF);Ranger法;加权Ranger,给予每个混杂因素以100%的权重;残差法,将去除混杂因素的因变量和自变量作为新的因变量和自变量纳入Ranger分析.研究采用危险因素在重要性评分排序中排在第一位的比例作为评价指标.结果 基于大量的模拟试验,我们发现残差法和加权Ranger法有效提高了危险因素在重要性评分排序中排在第一位的比例.GWAS实例证实,在使用这两种方法校正混杂因素之后,危险因素的排序有所提前.结论 校正混杂因素对于筛选与研究结局相关联的变量十分必要,且残差法在混杂因素校正上表现优于加权Ranger法,RF和Ranger几乎无混杂校正作用.
混杂、随机森林、ranger、加权、重要性评分
39
R195.1(保健组织与事业(卫生事业管理))
国家重点研发计划;国家自然科学基金;江苏省中医院院级创新发展基金专项课题
2023-02-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
844-849