蛋白质功能模块发现方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:study_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,随着人类基因组测序工作的完成,蛋白质组学已经成为生命科学中的核心研究内容。庞大数量的蛋白质之间的相互作用构成了生命活动的基础。然而单个蛋白质很难发挥特定的生物功能,生命活动中的生物功能一般是通过多个蛋白质共同相互作用而完成的。近年来,飞速发展的高通量技术产生了大量的蛋白质相互作用网络数据。一般认为相互作用的蛋白质具有相同或者相似的生物功能,因此如何从蛋白质互作网络中挖掘出具有特定生物功能的蛋白质模块已经成为当前生物信息学领域中的研究热点。由于人类目前已经发现的蛋白质相互作用数据数量比较少,并且在这些少量互作数据中还存在一些错误的相互作用(假阳性),这些噪声信息使得直接从稀疏的蛋白质互作网络中检测功能模块具有了一定的局限性。因此,完全基于网络拓扑结构的功能模块发现算法检测到的功能模块准确率比较低。然而比较幸运的是人类已经获得了一些少量的经人工审核过的高质量的蛋白质复合体数据。于是,研究设计融合蛋白质互作数据和蛋白质复合体数据的功能模块检测算法是必要的。目前大多数功能模块发现算法都是无监督的,因此本文的主要研究内容是分析蛋白质拓扑模块与功能模块之间的关系,以及设计新的将蛋白质复合体数据作为先验信息的半监督功能模块检测算法。本文的几个主要研究工作描述如下:(1)由于功能模块与拓扑模块之间的关联关系尚未明确,本文系统地分析了蛋白质拓扑模块与功能模块之间的关联关系。我们首先使用五种非重叠模块发现算法和两种重叠模块发现算法从人类蛋白质互作网络中检测蛋白质拓扑模块,然后分析了这些拓扑模块的物理特性,最后使用基因本体富集分析、基因本体同质性、生物通路同质性、蛋白质模块间的症状相似性四个方面对蛋白质拓扑模块进行了生物功能分析。实验结果表明,蛋白质拓扑模块在生物功能上存在多样性的问题,因此在检测高同质性的蛋白质模块时应该考虑融合其它生物信息。(2)针对人类蛋白质互作数据较少并且存在噪声,蛋白质拓扑模块在生物功能上存在多样性的问题,本文提出一种基于三因式非负矩阵分解的成对约束(Pairwise Constrained Non-negative Matrix Tri-Factorization,PCNMTF)功能模块检测算法。该算法从目前已知的可靠的蛋白质复合体数据中抽取先验信息,然后使用这些先验信息来指导蛋白质模块隶属度矩阵的学习过程;同时还设计了一种使用蛋白质模块间关系进行重叠蛋白质功能模块检测的方法。实验结果证实,将蛋白质复合体数据作为先验信息可以提高蛋白质功能模块的检测精度。(3)针对先验信息一般只用来约束蛋白质模块隶属度矩阵,而很少用来约束蛋白质模块间关系矩阵的问题。提出一种基于三因式非负矩阵分解半监督的功能模块检测算法(Semi-Supervised protein functional module detection algorithm based on NMTF,SSNMTF),该算法可以使用先验信息同时指导蛋白质模块隶属度矩阵和功能模块间关系矩阵的学习过程;同时设计了一种无参的基于蛋白质模块隶属度矩阵的重叠蛋白质功能模块检测算法。实验结果表明,使用先验信息同时指导蛋白质模块隶属度矩阵和蛋白质模块间关系矩阵的学习过程,可以提高先验信息的使用效率。(4)针对must-link先验信息主要是通过图正则项进行约束,而忽略了对应的蛋白质在模块中的位置关系这一问题,本文提出了一种基于向量内积相似性的半监督功能模块检测算法(Semi-Supervised protein function-al module detection algorithm based on NMTF with Inner Product,NMTFIP)。在PCNMTF和SSNMTF两个算法中,must-link这一先验信息主要是用来最小化相应的蛋白质对之间的模块隶属度向量之间的距离,然而由于没有考虑到蛋白质在模块中的重要程度,这可能会导致错误的模块检测结果。NMTFIP通过最大化两个蛋白质对应的模块隶属向量之间相似性的方式对must-link进行约束,该方法能够充分合理地使用先验信息去指导蛋白质功能模块检测的过程,从而获得更加准确的蛋白质功能模块。
其他文献
分裂四元数代数是结合代数,同时也是不可交换的四维Clifford代数,它包含零因子,幂零元和非平凡的幂等元.分裂四元数环和四元数环是两种不同的非交换四维Clifford代数,后者是
扩散型过程是一类连续的随机过程,被广泛用于随机建模.例如,其在社会、物理、工程建设、生命科学以及金融经济等领域中都有着广泛的应用.而不论从理论研究还是从实际应用的观
目的:通过对青岛地区545例儿童药品不良反应(ADR)报告综合分析,了解这一人群不良反应发生的特点及规律,发现导致儿童ADR的重要因素,开展儿童药品不良反应与药物关联研究,以期
目的:评价磷脂酰肌醇3-激酶-丝氨酸-苏氨酸蛋白激酶-缺氧诱导因子-1α(phosphatidylinositol 3-kinase-protein-ser-ine-threonine kinases-hypoxia inducible factor-1α,PI3K/Akt/HIF-1α)信号通路在右美托咪定减轻梗阻性黄疸大鼠肺损伤中的作用。方法:清洁级健康雄性Wistar大鼠共40只,体质量22
间斑寇蛛(Latrodectus tredecimguttatus)是“黑寡妇”蜘蛛的一种,属节肢动物门、蛛形纲、蜘蛛目、球蛛科、寇蛛属,在中国主要分布于新疆、云南、内蒙古、甘肃等地。与其他有
曳引电梯的检验与维修保养是一项高空、高危作业,因此安全隐患就始终伴随着整个检验与维保过程。为了预防检验与维修保养中发生的安全事故,相关人员除了严格按照电梯检验与维
血红细胞的流变特性对血液的流动及氧气和营养物质的传输具有重要影响。健康的人类血红细胞在常态下是两面凹形的,最大直径接近甚至大于最小的微血管直径。血红细胞有很大的
互感器的标准体系现已重新进行调整,以前的各单项互感器国家标准经过重组后,转换为通用技术要求部分和各专用技术要求部分,并构成一套新的互感器系列国家标准(GB20840系列标准)
<正>根据国家人口构成的变化,需要法律保护的弱者集团中老年人和身心障碍者比率的逐渐上升,日本于1999年通过了相关法案,对成年监护制度进行了全面的改革。从大陆法系各国关
目的:马拉色菌是寄生于皮肤表面的常见真菌之一,与一些常见的炎症性皮肤病的发病有着密切的关系,如脂溢性皮炎、马拉色菌毛囊炎和特应性皮炎等。真菌细胞外囊泡已在多种真菌