DOI：10.12114/j.issn.1007-9572.2021.01.313

使用机器学习建立慢性阻塞性肺疾病患者重度气流受限风险预警模型研究

引用

摘要：

背景气流受限程度是评价慢性阻塞性肺疾病(COPD)患者疾病进展的关键指标.然而由于检查禁忌、依从性等问题,导致部分患者难以开展相关检查,无法评价疾病严重程度.目的建立并评估基于机器学习算法的COPD患者重度气流受限风险预警模型.方法采用横断面设计调查2019年1月至2020年6月四川省某三甲医院的COPD住院患者,收集患者一般临床指标与肺功能检查数据.将数据按8:2比例随机分为训练集和测试集,在训练集中使用4种缺失值填充方法、3种特征筛选方法、17种机器学习和1种集成学习算法构建216种风险预警模型.采用ROC曲线下面积(AUC)、准确率、精确率、召回率和F1值评价模型的预测性能,分别使用十折交叉验证法和Bootstrapping算法进行内部验证和外部验证.使用测试集数据进行模型测试和选择.使用后验法进行样本量验证.结果共纳入418例患者,其中212例(50.7％)患者存在重度以上气流受限风险.经4种缺失值处理和3种特征筛选后,共获得12个处理后的数据集及12种影响气流受限因素的重要性排序,结果显示,呼吸困难指数评分(mMRC)等级、年龄、体质指数(BMI)、吸烟史(有、无)、慢性阻塞性肺疾病评估表(CAT)评分、呼吸困难(有、无)在变量特征排序中居于前列,是构造模型的关键指标,对结果预测有重要作用.其中,采取不填充、Lasso筛选方法后,mMRC等级、吸烟史(有、无)、呼吸困难(有、无)为位居前3位的预测因子,mMRC等级占特征重要性的54.15％.使用不填充、Boruta筛选方法后,CAT评分、年龄、mMRC等级为位居前3位的预测因子,CAT评分占特征重要性的26.64％.使用17种机器学习和1个集成学习算法对12个数据集分别建模,共得216个预测模型.17种机器学习算法十折交叉验证结果显示,不同算法预测性能比较,差异有统计学意义(P<0.05),随机梯度下降算法的平均AUC最大,为(0.738±0.089).使用Bootstrapping算法对测试集进行外部验证结果显示,不同算法所得模型的预测性能比较,差异有统计学意义(P<0.05),集成学习算法的平均AUC最大,为(0.757±0.057).利用Bootstrapping算法对4种缺失值处理和3种特征筛选预测性能评价结果显示,当不填充和Lasso筛选时,可提高模型的性能,差异有统计学意义(P<0.05).使用测试集数据对216个机器学习模型进行测试,最佳模型的AUC为0.7909,准确率为75.90％,精确率为75.00％,召回率为78.57％,F1值为0.7674.样本量验证结果提示研究样本量可满足建模需求.结论本研究建立并评价了COPD患者重度气流受限风险预警模型,mMRC等级、年龄、BMI、CAT评分、是否有吸烟史和呼吸困难是影响气流受限的关键指标.该模型预测效果良好,具有潜在的临床应用前景.

关键词：肺疾病,慢性阻塞性;机器学习;气流受限程度;肺功能;呼吸功能试验;预测模型

所属期刊栏目：25

分类号：R563.9(呼吸系及胸部疾病)

资助基金：国家自然科学基金资助项目;干部保健科研课题川干研

在线出版日期：2021-12-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：217-226

英文信息展示

期刊专题