大规模化合物子结构检索的并行实现与优化

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户：w02114119

【摘要】

：

化合物的子结构检索在计算机辅助药物设计、波普学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是一个NP完备性的问题,获得用户可接受的平均检索时间一直是研究

【作者】

：

井银玲李晓霞袁小龙郭力

【机构】

：

中国科学院过程工程研究所多相复杂系统国家重点实验室,中国科学院研究生院,

【出处】

：

计算机与应用化学

【发表日期】

：

2010年06期

【关键词】

：

化学子结构检索大规模化学结构检索集群并行化学数据库化学信息学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

化合物的子结构检索在计算机辅助药物设计、波普学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是一个NP完备性的问题,获得用户可接受的平均检索时间一直是研究人员十分关注的问题,其方法主要有改进算法和提升硬件条件2个方面。当化学结构数据库的规模达到百万乃至千万级别时,尽管改进算法的方式能够获得一定的检索效率提升,但其提升的空间有限,因而,集群并行方式是大规模化合物子结构检索应用的必然选择。本文以ChemDB Portal的化学子结构检索系统为基础,实现了基于集群并行的化学子结构检索系统,并进行了任务均分、多线程并行等优化。在包含800万个化合物结构的化学结构数据库中,利用5个节点的小型集群,选取10个较为典型的提问结构进行子结构检索测试。测试结果为基于集群的化学子结构检索的平均检索时间由初始单节点时的34.1 min降低为2.75 min,检索效率平均提高12.4倍,表明在大规模乃至超大规模的数据条件下,集群并行化方式能够显著地提高子结构检索系统的执行效率。 Substructure search of compounds is an indispensable tool in the field of computer-aided drug design, popularization, chemical databases and so on. However, because substructure retrieval is an NP completeness problem, it is always a very important issue for researchers to get the average retrieval time acceptable to users. The main methods are improving algorithms and improving hardware conditions. When the scale of the chemical structure database reaches millions or even tens of millions of levels, although the improved algorithm can obtain some retrieval efficiency improvement, the space for its promotion is limited. Therefore, the parallel cluster approach is inevitable for the retrieval of large-scale compound substructures select. Based on ChemDB Portal’s chemical sub-structure retrieval system, this paper realizes the chemical sub-structure retrieval system based on cluster parallelism, and optimizes the task sharing and multithreading parallelism. In a chemical structure database containing 8 million compound structures, a small cluster of 5 nodes was used to select 10 typical query structures for substructure search. The test results showed that the average search time of cluster-based chemical sub-structure retrieval decreased from 34.1 min in the initial single node to 2.75 min, and the retrieval efficiency increased by 12.4 times on average, indicating that the clustering parallelization method under large-scale and even ultra- Can significantly improve the execution efficiency of the substructure search system.

其他文献

宽温变环境的空间反射镜结构分析与研究

相机在从地面到太空的过程中,需要经历重力、温度、气压、辐射等多种环境因素的变化,而这些因素都可能导致空间相机分辨率下降、像质变坏、功能失效甚至系统破坏。所描述的系

期刊

反射镜支撑微晶玻璃柔性铰链有限元法

高敏C反应蛋白对新发脑出血风险的预测价值

目的探讨基线血清高敏C反应蛋白(hs-CRP)水平对新发脑出血风险的预测价值.方法采用回顾性巢式病例对照研究方法,选择观察队列中新发脑出血患者323例,对照组646例.比较两组

期刊

C反应蛋白脑出血病例对照研究C-reactive proteinCerebral hemorrhageCase-control study

原位SiNx掩膜生长GaN材料的应力及其对光学性质的影响

研究了以金属有机化学气相沉积方法生长在SiNx掩模层的GaN的应力状态,以及应力对光学性质的影响.通过微区拉曼光谱对应力进行了表征,结果显示,随着SiNx掩模淀积时间的增加,其

期刊

氮化镓金属有机化学气相沉积应力原位氮化硅掩膜GaNMOCVDstressporous SiNx interlayers

N,N'-1,4-二烷基取代-1,4-二氮杂双环-[2.2.2]-辛烷的简便合成

水反应介质中,卤代烷与1,4-二氮杂双环-[2.2.2]-辛烷发生烷基化反应,制得N-1-取代-1,4-二氮杂双环-[2.2.2]-辛烷,接着在加热下与另一分子的卤代烷反应,高收率得到标题化合物

期刊

14-二氮杂双环-[2.2.2]-辛烷烷基化反应卤代烷水介质合成

有机累托石的制备及在水性聚氨醋涂料中的防沉降作用

用十六烷基三甲基澳化按作为柱化剂制备的有机累托石,以聚醚二元醇、甲苯-2,4-二异氛酸醋,2,2-二经甲基丙酸为基本原料,采用原位聚合法制备了有机累托石/水性聚氨醋乳液.考察

期刊

水性聚氨醋有机累托石原位聚合防沉降涂料

室温相变蓄热复合材料的制备及研究

选用十酸和十二酸2种脂肪酸作为相变材料,采用溶胶一凝胶法制备脂肪酸/SiO_2相变蓄热复合材料.分别采用差示扫描量热仪(DSC)、红外光谱仪(IR)和扫描电镜(SEM)对所制备的复合

期刊

相变复合材料脂肪酸SiO_2室温composite phase change materialfatty acidsSiO_2room tempe

氢化氙离子XeH+基态X1∑+解析势能函数的变分研究

采用双原子分子离子XY+的能量自洽法(Energy-consistent-method for ion XY+,ECMI)研究了氢化氙离子XeH+基态X1∑+的解析势能函数,并与解析形式的 Morse 势和 Huxley-Murrell

期刊

氢化氙离子XeH+基态X1∑+双原子分子离子XY+的能量自洽法解析势能函数

几乎v-稳定导出等价保持代数的奇异性

设A与B是代数闭域上k的有限维代数.本文证明了:如果A与B是几乎v-稳定导出等价,则A与B有相同的代数奇异性.

期刊

Morita型稳定等价几乎v-稳定导出等价奇异性

C2Hx(x=4～6)在Ni(111)表面吸附的DFT研究

采用密度泛函理论与周期平板模型相结合的方法,对物种C_2H_x(x=4～6)在Ni(111)表面的top,fcc,hcp和bridge位的吸附模型进行了结构优化、能量计算,得到了各物种较有利的吸附位;

期刊

C2HxNi(111)表面吸附能态密度密度泛函理论

一类2维具有源项的抛物型Monge-Amp re方程的精确解

应用不变集方法, 求解2维具有源项的抛物型Monge-Ampère方程ut=det D2u+P(u)和普遍型2维具有源项的抛物型Monge-Ampère方程ut=A(u)(uxxuyy-uxyuxy)+B(u)uxx+C(u)uyy+D(u)ux

期刊

抛物型Monge-Ampère方程精确解不变集

大规模化合物子结构检索的并行实现与优化

其他学术论文