基于聚类与特征融合的蛋白质亚细胞定位预测

引用

摘要：

蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发现具有重要意义.然而,如何利用机器学习精准预测蛋白质亚细胞的位置一直是一项具有挑战性的科学难题.针对这一问题,提出了一种基于聚类与特征融合的蛋白质亚细胞定位方法.首先将自相关系数法和熵密度法引入蛋白质特征表达模型的构建,并在传统的PseAAC(Pseudo-amino Acid Composition)的基础上提出了一种改进型PseAAC方法.为了更好地表达蛋白质序列信息,文中首先将自相关系数法、熵密度法和改进型PseAAC进行融合,构造了一种全新的蛋白质序列表征模型;然后利用主成分分析法对融合后的特征向量进行降维,将结果输入到LibD3 C集成分类器,对蛋白质亚细胞进行分类预测,并采用留一法在Gram-positive和Gram-negative数据集上进行交叉检验;最后将取得的实验结果与其他现有算法进行比较.实验结果表明,所提方法在Gram-positive和Gram-negative数据集上分别取得了99.24％和95.33％的预测准确率,说明所提方法具有科学性和有效性.

关键词：特征融合、聚类、自相关系数、伪氨基酸组分法、主成分分析法

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61461053,61461054

在线出版日期：2021-03-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：206-213

英文信息展示

期刊专题