论文部分内容阅读
药物研发是一个漫长的过程,一种新药从研发到最终上市会耗费十几年的时间,而期间投入的成本甚至高达上亿美元。随着大数据时代的到来,与药物研发相关的数据呈爆炸式地增长,采用传统的实验手段处理这些数据已变得十分棘手。因此研究者们尝试使用计算的方法来辅助药物研发,解决药物研发中的各种问题。本论文重点围绕药物研发中药物相互作用的相关问题,挖掘潜在的数据关系并进行深入分析,构建相应的预测模型。主要开展基于传统机器学习算法构建蛋白质热点残基的预测模型,以及基于深度学习的算法分别构建药物-靶标相互作用的预测模型和QSAR药物活性筛选模型。药物研发的第一步是确定药物靶点。热点残基在蛋白质相互作用结合界面中起着关键性的作用,常作为潜在的药物靶点应用于药物设计领域中。但是采用实验的方法定位和识别热点残基非常耗时耗力,现已提出了许多基于序列或结构化表征的计算方法用于预测蛋白质热点残基。目前,绝大多数蛋白质的三维结构信息是未知的,这使仅从蛋白质的氨基酸序列中识别热点残基变得更加有意义。本文的研究工作旨在提出一种新的蛋白质序列特征编码方法,用于构建蛋白质热点残基的预测模型。该模型主要将氨基酸序列编码得到的理化特征与溶剂相对可及表面积结合起来,使用集成投票的方法得到最终结果。确定药物靶点后还需要寻找和验证药物与靶标蛋白之间潜在的相互作用关系。所谓的相互作用是指在生物体中靶标蛋白能够与其他小分子(如配体或药物)相结合,且引起生物体行为或功能的变化,产生治疗疾病的作用。本文提出了一个基于深度学习的预测模型,用于鉴定药物与靶标之间的相互作用。深度学习的网络模型有助于提取到更精细、更深层次的药物与靶标间的互作特征,从而进一步提升模型的预测性能。同时,由于药物与靶标互作的负样本数量众多,本文给出了一个较为合理的基于特征距离的负样本选择方法。该方法主要思想是计算每一个可能的负样本与整个正样本集之间的特征距离,若距离越大,则说明其与正样本之间的差距越大,那么该负样本的可靠性就越高。实验结果表明,预测模型在两种不同来源的数据上均表现出较优异的性能,可应用于识别药物-靶标相互作用的研究中。药物相互作用研究的最后一步是筛选出先导化合物。定量构效关系(QSAR)是一种基于配体的药物虚拟筛选方法,是准确识别新的先导化合物的有效方法之一。过去几十年中,在计算机技术的帮助下,QSAR的相关研究工作已取得丰硕成果。近年来,深度学习技术的兴起和大规模可访问化学数据库的出现,为深度学习在QSAR药物活性筛选方面提供了广阔的发展空间。因此,本文设计了一个基于深度学习端到端的预测模型来实现QSAR药物活性筛选,并使用两种训练方案对模型进行评估。该模型中编码-解码化学模型用于生成表征化学分子的中间特征;卷积神经网络结构则以中间特征作为输入向量对模型进行训练得到预测结果。两种训练方案均能证实模型的有效性。综上所述,本文旨在解决药物相互作用研究的相关问题,通过机器学习和深度学习算法,对相关数据进行挖掘和深入分析,寻找其中的潜在关系,构建泛化能力好、鲁棒性较强的预测模型。通过与其他模型比较,本文提出的预测模型均能产生较好的预测性能。因此,本文的研究内容可以为药物研发节约成本,缩短研发周期,同时也可作为药物研发中的辅助工具,为相关实验提供理论指导。