论文部分内容阅读
近年来,随着生物技术,尤其是高通量技术的发展,生物网络数据有了显著的增长,出现了很多的生物网络数据库,包括蛋白质反应网络,新陈代谢网络,基因调控网络,神经网络等,如何从这些浩瀚的生物网络中识别出与功能相关的结构是当前的一个研究热点,而如何从生物网络识别出模体是研究生物网络结构和功能的关键一步。模体是指在某个网络的多个不同部分出现的某一相互连接的子结构,其表达程度明显高于在随机网络中的表达。
目前的模体识别方法主要有穷举法和抽样法,前者试图找出给定真实生物网络中指定大小的所有模体,然而随着子图的增大,候选子图的数量呈爆炸性增长,识别模体所需的时间急剧增长,同时,内存空间也呈爆炸性增长,程序很快因内存空间耗尽而崩溃,所以穷举模体识别方法只能识别小规模和中等规模的模体,面对稍大规模的模体无能为力。针对此问题,抽样模体识别方法应运而生,抽样法降低了穷举法因为遍历访问子图空间而产生的高复杂度,该类方法部分访问子图空间,显著地降低了时间复杂度和空间复杂度,但由于难以等比例抽样,产生了抽样偏置,以及调整该偏置而产生的额外计算复杂度,同时抽样模体识别方法还存在抽样概率难以精确分配的缺陷。
针对这些问题,本文在传统的模体识别方法上进行了研究和拓展,首先提出了一种基于划分的子图搜索算法(Partition based SubGraph Finder,PSGF),该算法能够唯一,不遗漏,高效地搜索给定真实生物网络中指定大小的所有子图,PSGF基于划分的思想,即任意两颗搜索树中的子图通过全局划分顶点来加以区分,同一棵搜索树中不同子树中的子图通过局部划分顶点来加以区分,从而能够实现不重复性。PSGF在运行过程中仅仅在内存中维持一条搜索树中从根结点到叶结点的路径,所以具有较小的内存使用量。本文将PSGF应用到模体识别框架中,产生了一种新的穷举模体识别方法--基于划分的模体识别算法(Partiton basedNetwork Motif Finder,PNMF),在LIETZ数据集上成功识别了中等规模的模体,与同类方法相比,具有较小的时间复杂度和空间复杂度。针对抽样模体识别方法概率值难以精确分配的缺陷,本文还提出了一种基于度的概率分配算法(Degree based Probability AssignAlgorithm,DPAA)。相比于目前的随机分配方法,DPAA基于真实网络与随机网络的本质特征,具有较小的抽样偏置。
UETZ数据集和E.COLI数据集上的实验结果表明,本文提出的两种模体识别方法能有效地识别真实生物网络中的模体,相比于目前的方法,具有较小的计算复杂度和较小的抽样偏置。