期刊专题

10.11896/j.issn.1002-137X.2019.07.046

相关性和相似度联合的癌症分类预测

引用
基于经验型组织病理学的癌症诊断往往误诊率很高.从基因层次对癌症进行分析和研究是现阶段提高癌症分类预测精度的重要途径之一.生物学研究表明,同种癌症的关联基因有着共同的功能特点.基于此,文中提出相关性和相似度联合的癌症分类预测集成方法.首先,一方面,从统计学角度分析基因的差异化表达,利用互信息方法对基因表达谱数据进行相关性计算;另一方面,从生物机理上进行基因间的相似性分析,结合拓扑相似性和语义相似性分别对蛋白质互作网络和GO数据进行基因间的功能相似度计算.以上两者结合,即通过同时最大化目标集合的相关性和相似度筛选出特征基因集.然后,通过Bootstrap方法对数据集进行多样性采样,在前面所选特征基因集的基础上利用多种机器学习算法训练得到多个差异化较大的分类预测模型.最后,利用得到的多模型对测试样本进行分类预测,通过决策模型得到最终的分类结果.对GEO中4种不同癌症数据集进行分类预测研究,并将所提方法与最近的研究方法进行综合对比,结果所提方法在各数据集上的分类预测精度均提高5%左右,相比IG/SGA方法最高能达到10%的精度提升.实验结果表明,相关性和相似度联合的方法有效提高了癌症的分类预测精度,选择得到的特征基因有利于揭示生物学意义,且将多种算法优势互补,可解决单个分类算法适用范围受限的问题.

癌症分类、相关性、语义相似性、拓扑相似性、多样性采样、多算法多模型

46

TP391.9(计算技术、计算机技术)

国家自然科学基金项目61773157

2019-07-29(万方平台首次上网日期,不代表论文的发表时间)

共8页

300-307

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

46

2019,46(7)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn