10.16853/j.cnki.1009-3575.2024.01.008
疾病相关的蛋白质与配体DNA分子结合区域的分析与预测
很多细胞的生命活动涉及到特定的DNA分子与蛋白质相互作用,而且这些相互作用与人类很多疾病的产生密切有关.为了 了解蛋白质与DNA分子结合的分子机制,确定蛋白质序列中哪些残基与DNA分子结合是非常重要的.但是目前,精确识别蛋白与DNA分子结合残基还很困难.在这项研究中,我们将使用机器学习算法来预测疾病相关蛋白与DNA分子的结合区域,这为下一步精确识别结合位点奠定了基础.预测模型中使用的数据集来自于Uniprot和PDB数据库,我们提取位置特异性打分矩阵(PSSM)、氨基酸的理化指数为特征,利用随机森林算法、5折交叉检验结果得到:在使用103种理化指数作为特征时,预测总精度最高达到94%,精确率、召回率以及马氏相关系数分别为88%、75%和0.78.可见该模型对于疾病相关的蛋白与DNA分子的结合区域是有较好的识别能力.
疾病相关的蛋白质、位置特异性打分矩阵、蛋白质与配体DNA分子结合、机器学习算法
45
Q61(理论生物物理学)
国家自然科学基金;国家自然科学基金
2024-06-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
57-62