论文部分内容阅读
化学物质无处不在,并对人们的日常生活产生着日益重要的影响。化学物质的毒性被广为关注,但对其毒性的检测和评估却相对滞后。致癌性与致突变性是学术界长期以来的研究热点,对其作用机理的掌握对攻克癌症难题至关重要;而hERG钾离子通道的阻塞被认为是产生心脏毒性的主要因素之一,化合物不良副作用的早期检测是药物开发中必须考虑的一个问题。利用化学信息学手段,建立化合物的结构与毒性的计算模型,不仅可以预测化合物的毒性,而且可以显著降低研究费用,缩短研究周期,减少实验动物的使用。本论文的研究内容主要包括以下三个方面:(一)非同系化合物致癌性的分类研究:基于大鼠致癌性实验数据库中的852个非同系化合物,通过相关性分析和逐步线性回归方法对334个MOE分子描述符进行挑选,确定使用其中的24个描述符,藉此建立化合物致癌性分类预测的支持向量机(SVM)模型。研究中使用自组织神经网络(SOM)方法划分训练集与测试集,建立了3个模型,模型A2、A3为比对模型,用以验证模型A1的可靠性;另外建立了10个模型B1到B10,对模型A1的有效性进行十重交互检验。模型A1对于训练集的预测正确率为84.95%,对于测试集的预测正确率为80.10%,对于测试集中致癌性化合物与非致癌性化合物的预测正确率分别为77.11%和82.20%,马修斯相关系数(MCC)为0.59。用扩展连接指纹(ECFP4)计算特征毒性基团,并与Toxtree软件扫描所得到的结构预警(Structural Alerts)进行比对,吻合度很好。通过对用于建立模型的24个MOE描述符进行分类分析,发现描述符Mutagenic对化合物是否具有致癌性影响最大。(二)非同系化合物致突变性分类研究:基于565个非同系化合物,其中具有致突变性的化合物有277个,不具有致突变性的化合物288个。使用随机和自组织神经网络两种算法划分训练集和测试集,并使用相关性分析、F-Score以及Weka方法筛选描述符,建立了化合物致突变性的六个分类预测模型。通过对上述六个模型进行比较,发现使用自组织神经网络划分训练集与测试集所建立的模型的预测效果明显好于用随机划分得到的训练集与测试集建立的模型,其中最好的一个模型(Model21)对测试集的预测正确率达到了88.46%,马修斯相关系数为0.772。通过对至少在三个模型中出现的15个MOE描述符进行分类分析,发现描述符Mutagenic对化合物是否具有致突变性影响最大。(三)HERG钾离子通道阻滞剂心脏毒性的定量预测研究:收集了343个以哺乳细胞为实验材料测得的hERG钾离子通道阻滞剂的半数抑制浓度(IC50)数据,通过计算pIC50值与分子的MOE描述符之间以及两两描述符之间的相关系数,对MOE描述符进行筛选,共选择出16个描述符用于建立模型。采用随机和自组织神经网络两种算法对数据集进行训练集与测试集的划分。针对每一个训练集,分别运用多元线性回归和支持向量机两种方法建立定量预测模型并使用相应的测试集对模型预测能力进行评估。通过对四个模型的比较,发现支持向量机建立的模型的定量预测效果要明显好于多元线性回归方法建立的模型。综上所述,本论文利用化学信息学方法对化合物毒性进行的预测研究,分三个部分展开,并均得到了良好的预测结果。