一种基于稀疏主成分的基因表达数据特征提取方法
聚类已成为基因表达数据的一种前沿分析方法,通过基因类别的划分可以较快速地发现病变细胞,以实现对疾病的诊断.然而,高维、小样本的数据特点使得原始采集的基因表达数据具有大量的冗余与干扰信息,直接聚类会使得算法运行时间长,分析结果精度低.主成分分析是一种经典的数据降维方法,在保持方差最大的情况下,将高维数据映射到低维空间.但负载因子的非零特性使得主成分不具有强解释能力.提出基于截断幂的稀疏主成分分析方法对基因表达数据进行特征提取,并结合K-means方法对稀疏提取的特征基因数据进行聚类分析.最后,利用3个公开的基因数据集进行实验分析,验证了所提出的特征提取方法可提高基因表达数据聚类的精确性与高效性.
基因表达数据、负载因子、截断幂、稀疏主成分分析、特征提取
42
TP399(计算技术、计算机技术)
中央高校基本科研业务费专项资金NZ2013306
2015-09-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
453-458