醇酚类化合物毒性的QSAR研究
化合物毒性与描述符通常呈现为非线性关系,量子化学计算的化合物分子描述符中包含诸多无关特征与冗余特征.最大相关最小冗余(mRMR)是应用较广泛的特征选择方法,但当前的mRMR对连续型因变量不适用,且存在相关性测度与冗余性测度不可比的缺陷.定量构效关系(QSAR)研究中因变量(毒性)与自变量(描述符)多为连续型变量,本文以非线性的距离相关系数(dCor)取代线性的Pearson相关系数(R),在非线性条件下实现了相关性测度与冗余性测度可比,由此提出了新的特征选择方法mRMR-dCor.3个醇酚类化合物毒性QSAR数据集的分析表明,基于mRMR-dCor选择特征的支持向量回归(SVR)模型独立预测Q2分别为0.954、0.941、0.981,明显优于参比模型与文献报道,mRMR-dCor选择的多数保留分子描述符得到文献报道支持.mRMR-dCor在化合物QSAR、定量构质关系等研究中有广泛应用前景.
最小冗余最大相关、特征选择、定量构效关系、距离相关、支持向量回归
36
X703.5(一般性问题)
教育部博士点基金No.20124320110002;长沙市科技计划项目No.K1406018-21Supported by the Research Foundation for the Doctoral Program of Education Department No.20124320110002 and the Technology Program of ChangshaNo.K1406018-21
2017-01-07(万方平台首次上网日期,不代表论文的发表时间)
4490-4499