10.3969/j.issn.1671-8348.2014.14.050
基因表达谱缺失数据填补估计方法的研究进展与探讨
基因芯片能为基因组学研究提供海量的基因表达谱数据,这些数据反映了基因在不同组织细胞的不同生长发育阶段或不同生理状态下表达水平的变化[1‐2]。但是,由于基因表达谱的海量性、复杂性、噪声性和高维性特点,特别是缺失数据值的大量存在[3‐5],给后续的数据分析带来了较大困难,也产生了一些问题:观察到的数据与缺失数据间的差异所产生的偏倚,严重影响后续分析结果的客观性和正确性,从而导致后续分析质量的可靠性和稳健性降低,使得整个分析效率降低;另外,由于缺失数据的存在,经常得出难以解释的结果。因此,如何根据基因表达谱数据信息的特性进行有效的缺失值估计与填补是生物数据分析中重难点,并对后续基因表达谱的不同分析目的(如差异表达基因筛选、基因功能聚类、肿瘤组织分类)将产生重要的生物学影响[6‐9]。本文针对基因表达谱缺失数据的特性,就当前国内外基因表达谱缺失数据的处理方法进行简要概述,在分析其各自优缺点基础上,提出并探讨一种新的填补估计方法。
基因表达谱、缺失数据、多重填补、支持向量回归
TP3;TB1
国家自然科学基金资助项目81273178。
2014-06-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
1806-1808