基于海量表达谱分析的快速药物发现算法并行优化与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:vicovicovicovico
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着21世纪的到来,以炭疽病、非典为代表,多种新型病毒、变异病毒在世界范围内层出不穷,潜在的生物威胁远远超过传统的生物恐怖剂和烈性病原体清单的范围。如何快速高效地应对各种突发性病毒和病症的挑战是目前世界范围内的难题。与此同时,随着生物技术的飞速发展,生物医药领域的实验手段和研究方法均发生了巨大的变革,产出的数据呈爆炸式增长。其中,表达谱数据可应用于比较正常和异常细胞中基因的表达量水平,帮助识别疾病相关基因和药物作用靶标,分析复杂疾病的致病机制,为个性化诊断和治疗提供指导。基于此,本课题以海量表达谱数据分析为出发点,针对快速药物发现方法目前存在的问题和挑战,对表达谱分析、海量表达谱比对与聚类和频繁子图挖掘三个方面进行了深入研究,基于天河二号超级计算机进行了并行算法设计,实现了两种多节点协同的新型并行分析工具,以提高算法的时空效率,并保证其准确性。主要包括以下三个方面的工作:1.GSEA(Gene Set Enrichment Analysis,基因探针富集分析)算法是业界认可的表达谱分析算法,但受限于其本身复杂的计算过程,目前已有的实现工具都难以达到需求的计算速度,无法满足海量表达谱分析的目标。针对以上问题,本文对算法进行了重新设计,通过预排序、构建三元组(Triple)、构建索引和消除前缀求和等策略将算法复杂度从O(m*n)降低至O(m+n),设计实现了海量表达谱并行查询算法。与三种经典的GSEA表达谱分析工具进行实验比较,在单核情况下,本文实现的paraGSEA表达谱查询子工具比任何一种经典工具都快了两个数量级,在多核情况下,也表现出拟线性加速比。2.表达谱比对与聚类是快速药物发现的重要一环,CMap项目就提供了很好的应用实例,但目前缺少有效的计算工具。本文在之前对GSEA算法进行的各种优化的基础上,设计实现了一种面向天河超级计算机的海量表达谱并行比对算法,采用多种策略对初始数据进行负载均衡的划分,结合MPI+OpenMP进行两级并行加速。实验表明,在96核高性能服务器上,本文的算法可以获得接近96倍的加速效果,并在约100个小时左右完成了其他经典工具需要一年多的时间才能完成的比对任务。同时在利用天河二号超级计算机的1000个节点实验中,本文的算法同样获得了近乎线性的加速比,并且在1个小时以内完成了同等规模的比对任务。与此同时,基于比对后得到的表达谱相似度矩阵,本文还设计实现了一种基于KMedoids的表达谱并行聚类算法,在每次迭代内完成并行化,以避免迭代间的相互依赖。实验结果展示出本文的算法在海量表达谱聚类过程中良好的收敛性和高效性,算例分析得出的Kappa指标也充分展示出聚类结果的健壮性。3.海量表达谱数据驱动下快速药物发现的另一个技术手段是大规模网络分析。通过GSEA算法构建各类病原体与人体细胞反应表达谱的相关性矩阵与映射网络,从而通过大规模网络信息挖掘发现人体受感染后的损伤通路,进而辅助快速药物发现的过程。本课题主要针对网络信息挖掘方法中的一个子问题展开研究——即频繁子图挖掘。该问题目前缺少有效的并行化加速工具,已有的并行化算法大多没有采用启发式策略,效率低下且缺少多节点协同的版本。针对以上问题,本文设计实现了一种面向天河二号超级计算机的跨节点三级多粒度CPU-MIC协同的频繁子图挖掘算法,通过递归展开、多策略单边子图划分、分布式存储海量图集、双端冗余备份等策略最大限度地提高执行性能,同时调整程序数据流,使CPU与MIC协同工作,提高硬件利用率,最终有效加速整个挖掘过程。在天河二号单节点上可以达到近50倍的加速性能,并且在跨接点实验中也保持了较好的可扩展性,16个计算节点最少达到了超过500倍的加速效果。
其他文献
随着无线通信的发展,频谱资源匮乏的问题愈发严重,基于非正交多址接入(NonOrthogonal Multiple Access,NOMA)的协作通信技术,由于具有高频谱效率和可以有效提升传输可靠性的优点而受到广泛的关注。在协作NOMA的研究中,通过将中继共享(Relay Sharing,RS)技术引入协作NOMA网络中,可以为更多用户提供连接并减少网络部署成本。另一方面,将直传与中继协同传输(Co
目的:本实验通过观察参麦注射液对非体外循环冠脉旁路移植术(Off-pump coronary artery bypass graft,OPCABG)患者术中心排出量(cardiac output,CO)、每搏输出量(stroke volume,SV)、左室射血分数(ejection fraction,EF)的影响,探讨参麦注射液对OPCABG患者心功能的保护作用。方法:选择2016年10月至201
背景Six1(sine oculis homeobox 1)是Six家族中的一员,据报道,它参与人体许多组织器官的生长发育,比如肾脏,肌肉组织,听觉系统和视觉系统。近年来研究表明,Six1的高表达与很多肿瘤的发生发展有关,包括乳腺癌,霍奇金淋巴瘤,子宫颈癌,骨髓瘤,肝细胞癌,卵巢癌,结直肠癌等。已经证实,Six1不仅在结直肠癌细胞的增殖中发挥着重要作用,而且在调控结直肠癌细胞的迁移中也扮演着至关重
目的:根据基线,治疗12周,24周的乙肝表面抗原(hepatitis B surface antigen,HBsAg),乙肝病毒脱氧核糖核酸(HBV DNA)定量值和下降水平来预测聚乙二醇干扰素(peginterferon,PEG-IFN)
苜蓿素(tricin),是黄酮类化合物,又称麦黄酮、小麦黄素。本课题组前期对草木樨属植物白花草木樨植物进行活性成分研究,首次发现苜蓿素对黄嘌呤氧化酶具有较强的抑制活性,是治疗痛风的潜在天然产物。关于苜蓿素活性深入研究和其他药理功能报道不多,部分原因在于获得苜蓿素单体较困难。本课题通过文献调研发现大量禾本科植物中含有苜蓿素,尤其是原料廉价易得的小麦秸秆、水稻秸秆等农业生产副产品中含量较高。基于此成分
背景结肠癌(colon cancer)是世界范围内常见的消化系统恶性肿瘤,严重危害人类健康,其发病率和死亡率在呈现上升的趋势,手术和放化疗是常用的治疗手段,但是随着药物使用的广泛性,出现了明显的耐受现象,因此寻找新的结肠癌治疗靶点成为研究的热点。研究显示出,酪蛋白激酶CK2参与多种肿瘤的发生发展过程,但是其对结肠癌细胞生物学行为的影响以及自噬在其中可能的作用还不是很清楚。目的明确CK2抑制剂对结肠
目的:骨骼肌松弛药简称肌松药,选择性作用于骨骼肌神经-肌接头,与N_2受体结合,阻断神经肌肉间的兴奋传递产生肌肉松弛作用,使外科手术不再依赖麻醉深度满足肌松要求,而广泛应用于全身麻醉。胃癌是目前全球发病率最高的恶性肿瘤之一,并且在全球肿瘤相关死亡疾病中排名位于前列。我国属于胃癌的高发区,目前手术切除仍是胃癌治疗的主要方法,但是术后肿瘤的复发和转移仍是患者死亡的重要原因。近年来,越来越多的研究表明麻
青少年是国家的未来,青少年的身体健康关乎祖国的发展。食品安全是保证健康体质的前提和条件,营养是维持健康的重要基石。然而我国食品安全事件时有发生,食源性疾病不断增加;不良的饮食消费习惯引起的肥胖、与饮食相关的慢性疾病影响着青少年的健康。高中阶段是青少年身心快速发展的时期,对高中生进行食品安全与营养教育,有助于培养学生食品安全与营养健康意识,改善学生的不良饮食消费习惯。生物学涉及医学、农业、食品等相关
桡动脉为肱动脉的一条终支,通过分析桡动脉可以得到人体许多重要信息,如心率、血液流速、血管壁收缩情况等。国内外医护人员一般通过经验来识别桡动脉位置以进行病情的诊断和治疗,耗时长且准确度较低。针对此问题,本文创新性的提出使用计算机视觉自动定位超声图像中桡动脉的方法,论文主要工作和创新点如下:1.对桡动脉超声图像的去噪算法和形态学滤波算法展开了研究。首先分析了超声图像中的噪声种类,其次研究了多种去噪算法
研究目的:探究类风湿关节炎(Rheumatoid arthritis,RA)合并肺间质改变(Interstitial Lung Disease,ILD)与中医证型、一般情况、临床表现及实验室指标等方面的关系,挖掘RA-ILD的中医发病机制及有效诊疗策略,为临床提前预防、尽早诊断、精准辨证、有效治疗提供客观的依据。研究方法:回顾性分析2017年8月--2018年10月辽宁中医药大学附属医院风湿病科R