10.3969/j.issn.1672-2159.2023.05.022
基于机器学习算法筛选胰腺癌诊断标志物及药物敏感性分析
目的 通过生物信息学方法和机器学习算法挖掘基因表达综合数据库(Gene Expression Omnibus,GEO)中胰腺癌的关键表达基因,探究胰腺癌的诊断标志物.方法 以GEO数据库获得的芯片数据集GSE15471、GSE16515作为训练组,GSE28735作为验证组,用于筛选出差异表达基因(Differentially Expressed Genes,DEGs).利用套索算法(Least absolute shrinkage and selection operator,Lasso)与支持向量机的递归特征消除算法(Support Vector Machines with Recursive Feature Elimination,SVM-RFE)从DEGs中筛选出胰腺癌的关键表达基因,并在验证组中进行验证.采用受试者工作特征(Receiver Operating Characteristic,ROC)曲线的曲线下面积(Area Under Curve,AUC)评价关键表达基因的诊断效能.使用Kaplan-Meier生存曲线对关键表达基因进行预后生存分析.通过CellMiner数据库探究关键表达基因与药物敏感性之间关系.结果 训练组中筛选得到123个DEGs,其中上调基因85个,下调基因38个.LASSO筛选获得19个特征基因,SVM-RFE筛选获得16个特征基因,两种算法取交集得到2个关键表达基因(ITGA2、KRT19).ITGA2、KRT19在训练组中的AUC值分别为0.933和0.903,在验证组中的AUC值分别为0.900和0.903,均表现出了较高的敏感性与特异性.生存分析结果显示不同表达量的ITGA2(P=0.0019)、KRT19(P=0.0045)患者生存率有显著差异.药物敏感性分析显示,ITGA2,KRT19和多种肿瘤的化疗药物的耐药性增加有关(P<0.05).结论 通过生物信息学与机器学算法筛选出的关键表达基因与胰腺癌发生发展密切相关,可作为胰腺癌的诊断标志物在指导肿瘤靶向治疗方面发挥潜在作用.
胰腺癌、机器学习、诊断标志物、药物敏感性
28
R735.9;R576(肿瘤学)
山西省重点研发计划项目;山西省重点研发计划项目;山西省回国留学人员科研资助项目;山西医科大学省级博士基金项目;山西省研究生教育创新项目
2023-09-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
644-648