DOI：10.11896/j.issn.1002-137X.2019.07.046

相关性和相似度联合的癌症分类预测

引用

摘要：

基于经验型组织病理学的癌症诊断往往误诊率很高.从基因层次对癌症进行分析和研究是现阶段提高癌症分类预测精度的重要途径之一.生物学研究表明,同种癌症的关联基因有着共同的功能特点.基于此,文中提出相关性和相似度联合的癌症分类预测集成方法.首先,一方面,从统计学角度分析基因的差异化表达,利用互信息方法对基因表达谱数据进行相关性计算;另一方面,从生物机理上进行基因间的相似性分析,结合拓扑相似性和语义相似性分别对蛋白质互作网络和GO数据进行基因间的功能相似度计算.以上两者结合,即通过同时最大化目标集合的相关性和相似度筛选出特征基因集.然后,通过Bootstrap方法对数据集进行多样性采样,在前面所选特征基因集的基础上利用多种机器学习算法训练得到多个差异化较大的分类预测模型.最后,利用得到的多模型对测试样本进行分类预测,通过决策模型得到最终的分类结果.对GEO中4种不同癌症数据集进行分类预测研究,并将所提方法与最近的研究方法进行综合对比,结果所提方法在各数据集上的分类预测精度均提高5％左右,相比IG/SGA方法最高能达到10％的精度提升.实验结果表明,相关性和相似度联合的方法有效提高了癌症的分类预测精度,选择得到的特征基因有利于揭示生物学意义,且将多种算法优势互补,可解决单个分类算法适用范围受限的问题.

关键词：癌症分类、相关性、语义相似性、拓扑相似性、多样性采样、多算法多模型

所属期刊栏目：46

分类号：TP391.9(计算技术、计算机技术)

资助基金：国家自然科学基金项目61773157

在线出版日期：2019-07-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：300-307

英文信息展示

期刊专题