论文部分内容阅读
识别化合物-蛋白质相互作用在药物发现和药物设计中起到至关重要的作用,它为理解药物的药效、靶向以及不良副作用提供了有价值的参考。传统的方法主要是通过实验来验证化合物和蛋白质之间的相互作用关系,这种方法费时、费力,且不可能对所有的化合物、蛋白质逐一验证,具有很大的局限性。而通过计算的方法预测化合物-蛋白质相互作用关系,可以利用计算机强大的计算能力以及并行计算算法大幅减少预测时间,而且预测过程具有快捷智能、成本低廉、覆盖面广的特点,因此这类方法相比于实验方法具有独特的应用价值。识别化合物-蛋白质相互作用的计算方法很多,目前主流是分子对接(Docking)技术,其根据配体与受体作用的“锁-钥原理”,来模拟小分子配体与受体生物大分子相互作用。然而,该方法需要化学专业知识为背景,对于普通计算机专业人士难以胜任,并且准确率不高。深度学习技术的发展,大大减轻了编程人员对专业背景知识的要求,为识别化合物-蛋白质相互作用提供了新的可能性。本文的主要工作是构建了一个深度神经网络模型,输入层为2640维的向量,代表化合物的2640个特征数字,输出层为10维的向量,代表10种不同的蛋白质。模型采用反向传播算法,是包括1个输入层、3个隐藏层、1个输出层的5层深度模型。其中,第一个隐藏层包括1000个节点,第二个隐藏层包括800个节点,第三个隐藏层包括500个节点。经过人工筛选,从原始数据集里提取了出现频率在前十位的10种蛋白质数据以及跟它们有相互作用关系的化合物数据,作为多标签样本输入到模型中进行训练,并选取总样本集的十分之一进行预测。经过上百次的重复实验,单次实验最高耗时170余小时,总历时9个多月,模型参数被不断调整,实验结果也在不断优化。最优实验结果显示,在10个标签的多标签分类问题中,该模型得到了0.73的准确率。然后,本文把多标签分类问题进行了升级,将标签数量从10个拓展到100个、1000个,并重复以上过程。最终实验结果显示,随着标签数量的增加,所得到的准确率逐渐下降。囿于硬件计算能力的局限性、数据的不完整性等,目前的结果还有提升空间,但也足以说明基于深度学习的方法应用于化合物-蛋白质相互作用的识别领域是有效、可行的。