10.3969/j.issn.1673-5765.2021.08.005
机器学习基于不平衡数据预测急性新发缺血性卒中患者院内死亡模型研究
目的 探索利用机器学习基于不平衡数据预测急性新发缺血性卒中患者的院内死亡风险,并比较机器学习模型和传统logistic模型的预测性能.方法 以中国卒中联盟多中心登记数据库中急性新发缺血性卒中患者为研究对象,分别基于机器学习[XGBoost模型、CatBoost模型、随机森林模型、支持向量机(support vector machine,SVM)模型]和传统logistic方法构建患者院内死亡预测模型.按照7:3比例随机分为训练集和测试集,训练集用于构建预测模型,测试集用于评价模型效果.采用欠采样技术和平衡权重的方法处理死亡结局的不平衡数据.模型的评价指标包括区分度指标ROC中AUC和校准度指标Brier分数.结果 共纳入601466例急性新发缺血性卒中的患者,女性231235例(38.45%),院内死亡2206例(0.37%).logistic模型、XGBoost模型、CatBoost模型、随机森林模型、SVM模型预测患者院内死亡的AUC分别是0.913±0.000、0.921±0.000、0.919±0.001、0.925±0.000和0.900±0.001,其中XGBoost模型(P=0.0002)、CatBoost模型(P=0.0094)和随机森林模型(P<0.0001)的预测性能优于logistic模型,logistic模型表现优于SVM模型(P=0.0029).logistic模型、XGBoost模型、CatBoost模型、随机森林模型、SVM模型的Brier分数分别为0.115±0.001、0.096±0.001、0.093±0.001、0.084±0.000和0.045±0.001,机器学习模型的校准度均优于logistic模型,差异有统计学意义.结论 平衡数据处理后,机器学习模型和传统logistic模型预测急性新发缺血性卒中患者院内死亡风险表现均良好且稳定,其中,随机森林模型的预测性能最佳,SVM模型的校准度最佳.
缺血性卒中;院内死亡;预测模型;机器学习
16
"十三五"国家重点研发计划2016YFC0901001
2021-09-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
779-786