10.3969/j.issn.1002-3674.2022.04.008
基于多核学习的弥漫大B细胞淋巴瘤早期复发的精准预测
目的 对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma,DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测.方法 根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型.首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测.结果 在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.87,AUC=0.87)取得了最优的分类性能.采用SMOTE的随机森林模型(accuracy=0.84,preci-sion=0.85,recall=0.87,f1=0.79,AUC=0.83)、Borderline-2 SMOTE的随机森林(accuracy=0.84,precision=0.85,re-call=0.87,f1=0.79,AUC=0.83)两种集成模型的分类性能也较好,但都低于多核支持向量机模型.两种单核支持向量机性能较差.结论 本文构建的所有模型中,经过LASSO和Borderline-1 SMOTE重采样的多核支持向量机性能最优,可为DLBCL早期复发预测提供参考.
弥漫大B细胞淋巴瘤、早期复发、多核学习、不平衡数据
39
R195.1(保健组织与事业(卫生事业管理))
山西省科技厅应用基础研究计划面上项目;国家自然科学基金;山西医科大学博士启动基金;国家自然科学基金
2022-10-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
518-521,528