【摘 要】
:
生物信息处理是最近几年的一个热门研究方向,特别是对关键蛋白质预测算法的研究。它能够有效快速地预测出蛋白质相互作用网络里的一些关键蛋白质,这类蛋白质对于生物体的存活
论文部分内容阅读
生物信息处理是最近几年的一个热门研究方向,特别是对关键蛋白质预测算法的研究。它能够有效快速地预测出蛋白质相互作用网络里的一些关键蛋白质,这类蛋白质对于生物体的存活、繁殖以及药物靶点选择的研究极其重要。目前已经存在很多关键蛋白质的预测算法,但由于一些算法的计算复杂度过高,使得对于小规模的蛋白质相互作用网络的计算都十分困难,基于分布式计算将该类算法并行化加速是可行的解决方案。近年来Spark已经成为一个成熟的分布式计算框架,但在实际分布式计算过程中Spark的shuffle性能低下,因此探索Spark自身的shuffle优化策略具有十分重要的研究意义。本文的主要研究成果如下:(1)在预测关键蛋白质的研究方面,L-BC指标具有考虑网络局部特性以及减少算法运行时间的优点,而k-BC指标对顶点重要性程度划分地更加细致,本文结合了这两个算法的优点提出了L1-BC指标。实验结果表明,在大多数数据集上L1-BC指标的预测准确率整体都要优于其它常见的单个拓扑属性指标,特别是与传统的BC指标相比,L1-BC指标的预测准确率能够提高10%~50%。为了加速L1-BC指标的计算,本文基于Spark实现了 L1-BC指标的并行计算算法,通过使用广播变量和累加器,使得该并行算法在计算大规模网络时有效地避免了内存溢出的问题,同时加速比能够达到94.31%。(2)在优化Spark的shuffle性能方面,本文提出了基于历史溢写(Spill)次数的自适应内存分配算法。首先从那些在shuffle过程中没有发生过溢写的任务借内存,然后根据每个溢写任务的溢写次数计算出相应的权值,最后根据该权值将借来的内存分配给这些溢写任务。通过这种动态的自适应调整,该算法能够有效地减少总内存溢写量,改善shuffle性能,进而缩短整个作业的运行时间。实验结果表明,该算法在倾斜数据集上的作业运行时间能够缩短约11.2%,内存溢写量能够减少约8.5%。
其他文献
建立语言文化推广机构是很多国家采取的公共外交手段。中国有孔子学院,法国有法语联盟。孔子学院经过十多年的发展,目前仍处于迅速扩张阶段,但是各类问题日渐显露;法语联盟历
近年来,随着工业化生产的快速发展,水体污染越来越严重,已然成为人们亟待解决的问题。与传统的污水处理方法相比,高级氧化技术(AOPs)具有能耗低、不产生二次污染等优点。其中光
当前,我国的民用航空产业正处于飞速发展的蓬勃阶段,随着专业飞行人员需求的急剧攀升,国内各大专业院校也面临着更新培训教材、更改培训方式等一系列挑战。因此,借鉴和学习国
目的:利用生物信息学技术,预测沙利度胺在血液系统肿瘤治疗中所参与的信号通路、蛋白互作网络及靶基因,并通过分子对接软件进行靶基因验证。研究方法:利用Pubchem数据库获取
在油气生产过程中,大量使用了压力、温度传感器,与这些常规传感器相比,光纤光栅传感器具有抗电磁干扰能力强、耐腐蚀性好、体积小、一次安装永久性测量、可实现分布式测量等
背景与目的:卵巢癌是女性生殖系统中最恶性的肿瘤,在女性生殖系统癌症中其发病率位居第三位,但致死率在妇科癌中最高。目前卵巢癌的一线治疗方案是外科手术联合化疗,75%的患
寨头河墓地是近年来在陕西北部首次发现并全面揭露的一处战国时期的西戎文化墓地。该墓地共发掘墓葬90座,葬马坑2座,葬有牛骨的方坑一座,在墓地周围未发现围沟、围墙等建筑遗
本翻译实践报告所选翻译材料是Translation and Language Education:Pedagogic Approaches Explored《翻译与语言教育:教学法探索》的第七章、第八章和第九章。《翻译与语言教育:教学法探索》一书是意大利翻译理论家、翻译学家和语言学家萨拉·拉维欧萨(Sara Laviosa)所撰写的学术著作,目前没有汉语译本。译者与其他两位同学组成翻译小组,共同翻
目的:既往研究指出动态动脉弹性(Eadyn)可以预测休克患者扩容及去甲肾上腺素减量后的血压变化,现有部分研究从单一仪器测得Eadyn,但通过单一仪器测量可能存在数学上的误差,造
第Ⅳ主族纳米材料由于其独特的物理和化学性质,在生化分析和生物成像领域具有广阔的应用前景。在过去的十几年里,对碳点、硅纳米粒子的制备和性能都有较深入的探索,并将其应用到许多领域。而锗纳米粒子(Ge NPs),作为第Ⅳ主族半导体纳米材料的一员,同样具有生物相容性好、相对毒性低、化学性质稳定和尺寸依赖的荧光性质等优点。近年来,已经引起了越来越多研究者们的关注。但是,目前制备Ge NPs的方法存在着步骤繁