基于深度学习的化合物—蛋白质相互作用预测

来源 :兰州大学 | 被引量 : 5次 | 上传用户:lisenrui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别化合物-蛋白质相互作用在药物发现和药物设计中起到至关重要的作用,它为理解药物的药效、靶向以及不良副作用提供了有价值的参考。传统的方法主要是通过实验来验证化合物和蛋白质之间的相互作用关系,这种方法费时、费力,且不可能对所有的化合物、蛋白质逐一验证,具有很大的局限性。而通过计算的方法预测化合物-蛋白质相互作用关系,可以利用计算机强大的计算能力以及并行计算算法大幅减少预测时间,而且预测过程具有快捷智能、成本低廉、覆盖面广的特点,因此这类方法相比于实验方法具有独特的应用价值。识别化合物-蛋白质相互作用的计算方法很多,目前主流是分子对接(Docking)技术,其根据配体与受体作用的“锁-钥原理”,来模拟小分子配体与受体生物大分子相互作用。然而,该方法需要化学专业知识为背景,对于普通计算机专业人士难以胜任,并且准确率不高。深度学习技术的发展,大大减轻了编程人员对专业背景知识的要求,为识别化合物-蛋白质相互作用提供了新的可能性。本文的主要工作是构建了一个深度神经网络模型,输入层为2640维的向量,代表化合物的2640个特征数字,输出层为10维的向量,代表10种不同的蛋白质。模型采用反向传播算法,是包括1个输入层、3个隐藏层、1个输出层的5层深度模型。其中,第一个隐藏层包括1000个节点,第二个隐藏层包括800个节点,第三个隐藏层包括500个节点。经过人工筛选,从原始数据集里提取了出现频率在前十位的10种蛋白质数据以及跟它们有相互作用关系的化合物数据,作为多标签样本输入到模型中进行训练,并选取总样本集的十分之一进行预测。经过上百次的重复实验,单次实验最高耗时170余小时,总历时9个多月,模型参数被不断调整,实验结果也在不断优化。最优实验结果显示,在10个标签的多标签分类问题中,该模型得到了0.73的准确率。然后,本文把多标签分类问题进行了升级,将标签数量从10个拓展到100个、1000个,并重复以上过程。最终实验结果显示,随着标签数量的增加,所得到的准确率逐渐下降。囿于硬件计算能力的局限性、数据的不完整性等,目前的结果还有提升空间,但也足以说明基于深度学习的方法应用于化合物-蛋白质相互作用的识别领域是有效、可行的。
其他文献
主观程序正义是人们对于程序是否公平的感受,提高这种公平感有助于塑造对立法、执法和司法的信任,进而有助于法治的实现。经验研究表明,公平感的提升与个体对立法、执法和司
信息化是水利现代化的基础和重要标志,是水利管理向现代化跨越不可缺少的过程.加强水利信息化进程,以水利信息化促进水利现代化,是新世纪水利行业面临的迫切任务,是传统水利
伊洛瓦底盆地是经历多期构造作用的第三系沉降盆地,后期强烈挤压导致盆地中北部主要发育基底卷入型的挤压构造..研究区构造样式包括挤压、反转、伸展和走滑构造、、盆地发育甘高
杨建华,1953年出生,中共党员,沈阳鼓风机(集团)有限公司三车间铆工、高级工人技师,先后荣获“沈阳市十大能工巧匠”“全国机械工业有突出贡献技师”“沈阳市优秀共产党员”“辽宁省特等劳动模范”“全国劳动模范”等称号。2008年1月,他发明的“压缩机焊接机壳拼装法”获得国家科技进步奖二等奖,成为新中国成立以来辽宁省首位获此殊荣的一线工人。  在生产中,杨建华不断改进、总结和提高焊接技术,1997年创造