论文部分内容阅读
药物肝毒性是导致新药研究失败和临床药物撤市的一个重要的因素。据统计在新药研发过程中因候选药物肝毒性而导致失败的比例为37%,在临床应用中因药物肝毒性而导致药物撤市的比例为18%,因此,在药物研发早期以及临床使用中对药物肝毒性进行预测对于提高研发成功率和合理用药具有重要意义。由于药物肝毒性发生机制复杂,如何提高药物肝毒性预测的准确性以及适用性特别对迟发性药物肝毒性的预测依然面临重大挑战。在此,本研究尝试结合基因表达数据和机器学习技术构建药物肝毒性预测模型,以期在提高预测准确性的同时,提高肝毒性预测模型适用性以及实现迟发性药物肝毒性的早期预测。1.综述本章回顾了药物肝毒性及其预测现状。首先介绍了药物肝毒性的概念,并阐明了对化合物肝毒性的预测在药物的研发和应用中的重要性。其次,对药物肝毒性预测的方法,包括体内外生物实验法、专家系统、基于化合物预测方法、机器学习预测方法和基于基因表达数据的预测方法进行了综述,为本研究提供了理论支撑。2.肝毒性预测模型建模数据的搜集及处理本章旨在搜集建模所需的药物(或化合物)肝毒性的基因表达数据,并在预处理基础上进行分组和特征基因的筛选。通过对TG-GATE数据库和Array Express数据库收集获得87个化合物不同时间点和不同剂量下的基因表达数据样本988个(其中492个为对照组样本,496个为用药组样本)。为使模型能有效预测不同来源(条件)的基因表达数据以及能早期预测迟发性肝毒性,本研究根据基因表达数据样本所对应生物效果(肝毒性作用)的程度将出现中度以上肝毒性作用的化合物所对应的所有时间点、所有剂量下的所有基因表达数据样本作为阳性样本,非用药的对照组及肝毒性程度为轻微的化合物所对应的基因表达数据作为阴性样本。随机选择了123个阳性样本和121个阴性样本作为训练集,26个阳性样本和24个阴性样本作为测试集,剩余样本和训练集用于特征基因筛选。针对基因芯片中的空值和无效值进行最邻近法填充,并进行标准化,在此基础上,通过结合差异表达分析和Boruta算法对特征基因进行筛选。首先,用R中的Bioconductor包对用作特征筛选的阳性样本进行差异表达分析,筛选出差异表达基因375个;其次,用随机森林周围的包装算法Boruta算法对差异表达基因进一步筛选特征以最大限度降低维度,共筛选得78个特征基因用于预测模型构建。3.肝毒性SVM预测模型的构建、优化及性能测试在使用libsvm和训练集构建初始模型的基础上,以交叉验证准确率为指标,采用唯一变量原则筛选模型构建的基础参数,结果表明,当交叉验证模式为7折交叉验证、模型类型为nu-SVC、核函数为RBF核函数,其余参数设置为默认参数时,所构建预测模型取得最佳预测性能,其对训练集的交叉验证准确率为90.8163%,对测试集的预测结果为:敏感度SE为57.6923%,专一性SP为100%,准确度ACC为78.00%,马修斯相关系数MCC为62.8971%。在此参数基础上,通过构建基于GA(遗传算法)、GS(网格搜索算法)和PSO(粒子群算法)的三种优化模型,进一步优化模型的惩罚参数c和核函数参数g,通过比较在三种模型优化获得的最佳参数时模型对训练集的交叉验证准确率和对测试集预测的各项性能指标,结果显示:采用PSO算法时,在其最佳适应度(最优惩罚参数c为0.88064,核函数参数g为0.1)时,模型的预测性能最佳,对训练集的交叉验证准确率为89.7959%,对测试集的预测的性能评价指标SP为100%,SE为73.0769%,ACC为86.00%,马修斯相关系数为75.2168%。因此,确定最佳肝毒性SVM预测模型为交叉验证模式为7折交叉验证、模型类型为nu-SVC、核函数为RBF核函数,惩罚参数c设置为0.88064,核函数参数g设置为0.1。4.最优肝毒性SVM预测模型的文献和实验验证为进一步考察最佳肝毒性SVM预测模型的预测性能,本研究分别采用2组与模型构建时所使用数据不同来源的已报道的基因表达数据作为外部测试集对最佳SVM预测模型进行了验证。一组由已知肝毒性的7种化合物对应的46个基因表达数据样本组成;另一组由肝毒性尚不明确的化合物长春碱连续给药5天所对应的6个基因表达数据样本组成。预测结果显示:已知肝毒性化合物对应的46个样本均被预测为肝毒性阳性,与文献报道一致。而长春碱的6个样本也全部预测为阳性。为验证预测结果是否准确,本研究通过长春碱连续给药SD大鼠是否存在肝毒性进行了考察。在与预测基因表达数据相同的给药和饲养条件下测血清酶指标ALT、AST和H-E病理切片诊断结果显示:1-5天时大鼠未出现肝毒性,而在给药9天时,出现了肝毒性。上述结果证明了该预测模型能够适用于不同来源基因表达数据,且能早期预测迟发性肝毒性,具有较高预测性能。综上所述,本研究成功构建了基于基因表达数据和机器学习的肝毒性预测模型,该模型能够有效预测不同来源的基因表达数据,具有较好的适用性并且能够提前预测迟发性的肝毒性,具有较高的预测性能,为药物肝毒性的预测提供参考。