10.19368/j.cnki.2096-1782.2022.15.039
基于甲基化位点的筛选建模诊断结直肠癌
目的 利用癌症基因组图谱(the cancer genome atlas,TCGA)中的结直肠癌27 K甲基化数据和临床随访数据,挖掘与结直肠癌不良预后相关的因素及建立结直肠癌诊断模型.方法 自2020年12月—2021年9月,在TCGA网站下载207例结直肠癌27 K甲基化测序数据和相关临床资料.用R语言edger软件包筛选出差异甲基化位点,然后使用SPSS软件对差异甲基化位点进行ROC分析、逐步回归分析,筛选出对结直肠癌诊断有意义的位点.应用支持向量机、神经网络等建立起基于数个DNA甲基化位点的数学模型,并在GEO数据库中获取独立数据集GSE131013来评估结直肠癌诊断模型的性能.同时利用Kaplan-Meier(KM)单因素分析法和Cox多因素分析法对临床数据指标和甲基化位点进行生存分析,筛选出与结直肠癌不良预后有关的因素.结果 筛选出6个于结直肠癌有诊断潜力的位点:cg00240432、cg06744574、cg08090772、cg13577076、cg17872757和cg24446548.基于6个DNA甲基化位点建立ANN模型、Logistic回归模型、SVM模型,3种模型10折交叉验证平均准确率分别为99.0%、98.0%、99.5%,漏诊率分别为1.0%、2.0%、0.5%.运用GEO数据库中的独立数据集验证模型,3种模型的准确率分别为92.9%、85.8%、91.2%.KM生存分析发现cg24446548高甲基化以及结直肠癌晚期(Ⅲ、Ⅳ期)与结直肠癌不良预后有关(P<0.05).Cox多因素分析发现肿瘤分期对生存期有明显影响(P<0.05).结论 筛选出的甲基化位点具有诊断结直肠癌的潜能.在基于甲基化位点的筛选建立的3种模型中,ANN和SVM模型分类和预测性能较好.结直肠癌患者的cg24446548位点高甲基化以及肿瘤晚期(Ⅲ、Ⅳ期)预示着不良预后.
结直肠癌、机器学习、甲基化、10折交叉验证
7
R4(临床医学)
山东省医药卫生科技发展计划项目;国家级大学生创新创业训练计划项目
2022-10-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
39-45