10.13232/j.cnki.jnju.2021.05.006
基于机器学习的自发性早产生物标记物发现
近年来,基于基因表达微阵列数据的生物标记物示性基因的识别在生物信息学领域备受关注.自发性早产(Spontaneous Preterm Birth,SPTB)生物标记物的成功鉴定有利于降低孕妇早产的风险,具有重要的研究价值.提出一种从公开基因表达数据中识别SPTB生物标记物的方法.首先,从公开数据库下载SPTB的基因表达数据,运用支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)进行基因特征选择,并与其他机器学习与特征选择方法(AdaBoost-RFE,Neural Network-RFE,Radom Forest-RFE和K-Nearest Neighbor-RFE)进行比较,利用准确性、精确度、灵敏度、特异度、F-测度和AUC等指标,对分类效果进行评价.然后,将SVM-RFE排名靠前的基因与其他方法排名靠前的基因取交集,以此作为识别出的SPTB生物标记物.接着,通过聚类分析、相关性分析和功能富集分析对识别的生物标记物进行初步的鉴定.最后,构建SVM分类器,在独立数据集上对所识别的生物标记物进行验证.结果 表明,提出的机器学习方法对于SPTB生物标记物的发现是有效的.该方法能在孕妇产前无创检测患有SPTB的可能,减少对人工鉴别的依赖,降低孕妇早产风险.
生物标记物;自发性早产;机器学习;特征选择;生物信息学
57
Q811.4(生物工程学(生物技术))
国家重点研发计划;国家自然科学基金
2021-12-21(万方平台首次上网日期,不代表论文的发表时间)
共8页
767-774