论文部分内容阅读
随着计算机技术、信息技术、结构生物学和理论化学的发展,越来越多的虚拟筛选算法被开发。如何评估这些算法的优越性已经成为研究的热点。药物虚拟筛选算法的评估主要是指所开发的算法能否区分具有特定生物活性的分子(Actives)和不具有特定生物活性的分子(Inactives)。因此,评估药物设计算法的初始步骤就是准备基准数据集,包括活性分子和非活性分子。生物活性分子可以通过特定生物学手段测试得到,比如酶的抑制或激动实验、癌细胞的抑制实验及疾病相关动物实验测试等。然而,针对特定的测试体系,活性分子在科学文献报道较多,非活性分子被指为垃圾分子,而很少在科学文献中报道。由于非活性分子太少,这样就不利于基准数据集的构建。因此,如何产生理论非活性分子(Decoy分子)显得尤为重要。Decoy分子是指与实验活性化合物物理化学性质相似而结构不相似的理论非活性化合物。到目前为止,应用比较广泛的虚拟筛选算法评估基准数据集及产生Decoy分子算法包括DUD、DUD-E和DecoyFinder。DUD是最早开发的评估虚拟筛选算法的基准数据集,包含40个靶标及相应的活性化合物和非活性化合物,然而DUD基准数据集存在一些缺陷而不能很好的评估虚拟筛选算法,如靶标数量不足,单一靶标所含有的活性化合物和Decoy分子个数较少,Decoy分子之间的骨架多样性较低,用户不能自己产生除40个规定靶标之外的Decoy分子。DUD-E是DUD的改进版本,完善了DUD基准数据集的一些缺陷。DecoyFinder是一个本地可执行软件,可以用于特定靶标的Decoy分子的产生。然而,DUD-E与DecoyFinder构建Decoy分子的方法仍然都存在很大的不足。首先,当需要产生成百上千个Decoy分子时,两者的计算速度相对较慢;其次,DUD-E构建的数据库可用靶标数量有限(102个靶标),尽管用户可以产生Decoy分子,但一个活性分子只能产生不多于50个Decoy分子,且DUD-E的底层数据库只含有Zinc数据库,缺少其它数据库来源的,致使数据库化学空间和多样性不足,造成有些活性分子不能产生对应的Decoy分子,而DecoyFinder方法虽然可以灵活的产生多个Decoy分子,但该算法并没有考虑电荷影响,造成准确度不高;最后,随着靶标活性分子的增多,如何设计多样性活性分子集成为构建基准数据集的难点,而DUD-E和DecoyFinder都没有考虑到这个因素。基于上述分析,本研究开发出了一个准确、高速、大量产生Decoy分子的程序套件RApid Decoy Retriever(RADER),该方法能够快速产生更好的Decoy分子,用于基准数据集的构建,方便药物虚拟筛选算法的评估。本研究的主要内容包括:(1)第一章综述了计算机药物辅助设计及虚拟筛选、Decoy分子产生的原理、作用及相关研究进展;(2)第二章RADER算法的设计思路及其实现和RADER算法的评估及RADER web的实现与运用;(3)第三章RADER算法在构建PI3K-AKT-mTOR通路靶标基准数据集中的运用;(4)第四章对本研究进行了总结与展望。本研究成功地开发出了快速、准确、参数化、简单易用的产生Decoy分子的程序套件以及在线软件系统。RADER产生Decoy分子的速度比DecoyFinder快7?550倍。RADER,DUD,DUD-E和DecoyFinder构建基准数据集的两种分子对接方法(MOE-docking和Autodock Vina)的富集率,MOE-docking的EFmax,EF1和EF20的平均富集度分别为:35.2、36.1、36.4、37.0和8.5、10.4、11.7、10.7和2.6、2.5、3.2、2.8;Autodock Vina的EFmax,EF1和EF20的平均富集度分别为:35.1、36.1、36.4、36.5和5.2、5.8、8.8、8和2、2.1、2.5、2.8。结果显示,RADER算法靶标平均富集率数值基本都小于DUD,DUD-E和DecoyFinder,因而产生的Decoy分子更适合用来构建基准数据集。此外,本研究也基于RADER方法成功地构建了PI3K-AKT-mTOR通路靶标的基准数据集,方便科研人员直接使用。