生物网络中大模体识别算法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:gaoxuan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物技术,尤其是高通量技术的发展,生物网络数据有了显著的增长,出现了很多的生物网络数据库,包括蛋白质反应网络,新陈代谢网络,基因调控网络,神经网络等,如何从这些浩瀚的生物网络中识别出与功能相关的结构是当前的一个研究热点,而如何从生物网络识别出模体是研究生物网络结构和功能的关键一步。模体是指在某个网络的多个不同部分出现的某一相互连接的子结构,其表达程度明显高于在随机网络中的表达。   目前的模体识别方法主要有穷举法和抽样法,前者试图找出给定真实生物网络中指定大小的所有模体,然而随着子图的增大,候选子图的数量呈爆炸性增长,识别模体所需的时间急剧增长,同时,内存空间也呈爆炸性增长,程序很快因内存空间耗尽而崩溃,所以穷举模体识别方法只能识别小规模和中等规模的模体,面对稍大规模的模体无能为力。针对此问题,抽样模体识别方法应运而生,抽样法降低了穷举法因为遍历访问子图空间而产生的高复杂度,该类方法部分访问子图空间,显著地降低了时间复杂度和空间复杂度,但由于难以等比例抽样,产生了抽样偏置,以及调整该偏置而产生的额外计算复杂度,同时抽样模体识别方法还存在抽样概率难以精确分配的缺陷。   针对这些问题,本文在传统的模体识别方法上进行了研究和拓展,首先提出了一种基于划分的子图搜索算法(Partition based SubGraph Finder,PSGF),该算法能够唯一,不遗漏,高效地搜索给定真实生物网络中指定大小的所有子图,PSGF基于划分的思想,即任意两颗搜索树中的子图通过全局划分顶点来加以区分,同一棵搜索树中不同子树中的子图通过局部划分顶点来加以区分,从而能够实现不重复性。PSGF在运行过程中仅仅在内存中维持一条搜索树中从根结点到叶结点的路径,所以具有较小的内存使用量。本文将PSGF应用到模体识别框架中,产生了一种新的穷举模体识别方法--基于划分的模体识别算法(Partiton basedNetwork Motif Finder,PNMF),在LIETZ数据集上成功识别了中等规模的模体,与同类方法相比,具有较小的时间复杂度和空间复杂度。针对抽样模体识别方法概率值难以精确分配的缺陷,本文还提出了一种基于度的概率分配算法(Degree based Probability AssignAlgorithm,DPAA)。相比于目前的随机分配方法,DPAA基于真实网络与随机网络的本质特征,具有较小的抽样偏置。   UETZ数据集和E.COLI数据集上的实验结果表明,本文提出的两种模体识别方法能有效地识别真实生物网络中的模体,相比于目前的方法,具有较小的计算复杂度和较小的抽样偏置。
其他文献
随着微传感器技术、无线网络技术和嵌入式处理技术的发展,无线传感器网络(Wireless Sensor Networks,简称WSNs)吸引越来越多的科研人员对其展开研究,并极大地方便了人们的生
目前,在视频分析和处理过程中,运动物体的实时检测和轮廓跟踪已经逐渐成为计算机视觉分析和识别的关键技术。尤其是人体运动分析的研究在人体动画、游戏、虚拟现实和增强现实
随着网络信息数据的急剧增加,因特网上信息量的日益扩大,人们在信息获取方面的要求也越来越高。语义网的出现为计算机提供了可理解的语义信息环境,计算机可以用基于语义的信
学位
随着互联网技术的不断发展,搜索引擎已经成为人们获取网络信息的主要工具。研究搜索引擎网页排序的目的是从众多搜索结果中将内容相关和权威的网页排在前面,帮助用户迅速定位
随着互联网的快速发展,网络应用中的协议技术研究也在迅速增加。计算机网络中的协议理解对维护网络安全具有重要的意义。但越来越多的网络协议属于私有协议,缺乏公开的规范文
本文是“室内人体异常行为识别报警系统”项目的一部分,该项目为针对室内环境的人体行为监控。旨在通过整合智能视频监控处理流程中的各大关键技术,选择适应于该特定环境的有
不确定数据是近年来在传感器网络(WSN)、无线射频识别(RFID)等领域中涌现出来的一类新数据,对不确定数据聚类分析已经成为数据挖掘领域研究的新热点。本文阐述了数据不确定性
随着网络学习资源的海量级增长,加之不同用户背景知识和兴趣爱好各异,信息需要不尽相同,传统的基于关键字匹配的信息检索技术无论从资源覆盖率、检索精度等诸多方面来看,都无
最近十年以来,移动互联网得到了快速的发展并产生了巨大的变革,也引发了各种移动设备的快速普及。同时移动设备上的各种应用也在不断的丰富和改变着我们的生活。在各类应用中