期刊专题

10.3969/j.issn.1002-3674.2021.04.003

分类提升树模型结合SMOTE技术在天津浴池MSM人群中的应用

引用
目的 采用logistic、随机森林和CatBoost结合过采样技术(synthetic minority over-sampling technique,SMOTE)技术对天津市某浴池MSM人群数据构建模型以预测HIV的感染风险,并评价三个模型的分类效果.方法 利用10×10折交叉验证对模型进行训练和预测,使用网格搜索确定各模型的超参数.然后使用AUC、accuracy、brier score和F1值对上述三种模型进行评价.结果 在原始数据上,三种模型的表现基本一致,但在对类别比例不敏感的AUC和Brier score上,CatBoost的表现略优于其他两个模型.CatBoost、logistic和随机森林的AUC分别为0.798±0.026,0.792±0.037,0.934±0.040;Brier score分别为0.056±0.001、0.091±0.004和0.054±0.003.使用SMOTE后,CatBoost的性能明显优于其他两个模型.在测试集上,其AUC、accuracy、brier score和F1值分别为0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007.结论 可使用Catboost模型预测MSM人群中的潜在HIV感染者.

男男同性性行为人群;机器学习;艾滋病病毒;Catboost

38

R512.91(传染病)

教育部人文社会科学研究一般项目20YJAZH021

2021-10-15(万方平台首次上网日期,不代表论文的发表时间)

共5页

488-492

相关文献
评论
暂无封面信息
查看本期封面目录

中国卫生统计

1002-3674

21-1153/R

38

2021,38(4)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn