一种加权K-均值基因聚类算法
针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题,基于随机森林变量重要性分数,提出了一种新的加权K-均值基因聚类算法.首先,以微阵列表达数据中的样本为对象、基因为特征,训练随机森林分类器,计算每个基因的变量重要性分数;然后,以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类.在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验,结果表明:所提出的加权K-均值聚类算法与原始的K-均值聚类算法相比,类间距离与总距离的比值平均高出17.7个百分点,具有更好的同质性和差异性.
微阵列表达数据、聚类分析、随机森林、K-均值
22
TP391(计算技术、计算机技术)
黑龙江省教育厅2014年度科学技术研究面上项目12541124
2017-06-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
112-116,123