10.3969/j.issn.1002-3674.2021.04.003
分类提升树模型结合SMOTE技术在天津浴池MSM人群中的应用
目的 采用logistic、随机森林和CatBoost结合过采样技术(synthetic minority over-sampling technique,SMOTE)技术对天津市某浴池MSM人群数据构建模型以预测HIV的感染风险,并评价三个模型的分类效果.方法 利用10×10折交叉验证对模型进行训练和预测,使用网格搜索确定各模型的超参数.然后使用AUC、accuracy、brier score和F1值对上述三种模型进行评价.结果 在原始数据上,三种模型的表现基本一致,但在对类别比例不敏感的AUC和Brier score上,CatBoost的表现略优于其他两个模型.CatBoost、logistic和随机森林的AUC分别为0.798±0.026,0.792±0.037,0.934±0.040;Brier score分别为0.056±0.001、0.091±0.004和0.054±0.003.使用SMOTE后,CatBoost的性能明显优于其他两个模型.在测试集上,其AUC、accuracy、brier score和F1值分别为0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007.结论 可使用Catboost模型预测MSM人群中的潜在HIV感染者.
男男同性性行为人群;机器学习;艾滋病病毒;Catboost
38
R512.91(传染病)
教育部人文社会科学研究一般项目20YJAZH021
2021-10-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
488-492