基于蛋白质相互作用网络的聚类算法研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:shenloa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依托基因组学、蛋白质组学、代谢组学、调控网络等分析并收录的多类别多层次系统生物学基础数据,发展模型全方位系统性的模拟分析生物个体内部的所有组成成分包括蛋白质、基因、mRNA等发展变化的动力学过程,进而为每个患者提供个性化的精准医疗方案是未来的生物信息学发展趋势。其中,基于蛋白质相互作用网络的聚类算法研究与应用是当前计算生物学领域的基础研究问题。
  本课题研究主线是基于蛋白质相互网络设计聚类算法进行通用蛋白质复合物的识别以及疾病关联模块的挖掘等应用研究,此外蛋白质复合物和疾病功能模块都与蛋白质的亚细胞位置信息密切关联,而当前该类数据存在着覆盖度低和较高比例的假阳性,因而本文对蛋白质亚细胞定位预测这个问题也开展了研究。总之,本课题的主要研究内容如下:
  (1)基于融合多视窗特征的蛋白质亚细胞定位研究。针对当前的如氨基酸组成、伪氨基酸组成等蛋白质序列表示方法难以充分挖掘残基与残基之间的交互信息和各残基的位置分布信息等缺陷,本文首先提出两种序列特征提取方法:一种是基于改进的混沌游戏模型提取的2维特征,侧重挖掘主序列的频率和全局位置分布信息;另一种则是基于统计信息理论表示的新3维特征,主要反映的是残基的局部位置信息。然后,设计一个基于新提出特征和酉距离的分类模型,它优势在于不需要时间复杂度高的分类系统如SVM等,就能快速预测亚细胞位置,并且准确率超过部分基于SVM的经典分类模型。为进一步提高系统的预测准确率和可用性,模型融合两类新特征、伪氨基酸组成和二肽特征并采用SVM作为分类系统,实验结果表明该多视窗模型预测效果显著超过几乎所有经典算法,这也间接地反应了新特征可以作为当前经典特征表示方法的有效补充。最后,部分蛋白质的亚细胞位置预测虽然被判定为假阳性,但使用文本挖掘技术从权威期刊杂志可以证实它们只是当前暂未被公开数据集收录而已。
  (2)基于核心-附属结构的蛋白质复合物聚类算法研究。蛋白质复合物是生物内执行细胞功能的主要载体,被证明绝大部分存在着核心-附属结构。针对蛋白质相互作用网络聚类算法存在的难以识别重叠模块、预测复合物的生物可解释性差等问题,本文提出一种挖掘核心-附属结构的蛋白质复合物的模型CFOCM,其先融合基因本体注释等定义一个新的亲和聚合函数,这能确保复合物核心既能有着内部稠密外部连通相对稀疏的拓扑结构且整体倾向于有着至少一个相同的生物功能,然后根据设定的亲近策略往复合物核心选择性添加外围蛋白质组装成最终的复合物。该聚类模型在相对稀疏、稠密、整合多数据集等不同特点的网络数据上F-mesure、预测数量等度量的表现都优于现有的算法(ClusterONE,MCL,CORE,COACH等),证实了算法的有效性和高适应性,此外对比实验也表明借助基因本体注释等保证核心拥有着至少同一共享功能这一假设有效地提高了算法的表现。
  (3)基于多目标进化计算框架的聚类算法挖掘疾病关联模块研究。挖掘疾病关联的功能模块,有助于筛选新药物靶标,揭秘复杂疾病的产生发展机制。当前针对该方面研究成果相对较少,本文探索性的提出了一种基于多目标进化计算框架的疾病关联模块预测模型MPSOPC,多目标优化框架的优势在于能够同时平衡优化各个簇内部的稠密度、簇与簇间的连通性和模块内各蛋白质与某种疾病的紧密度等多个目标,给出一个最优解集,此外该模型还能充分挖掘网络的全局拓扑特性。实验结果证实,MPSOPC能有效识别簇内部稠密连通、簇与簇间连通相对稀疏的拓扑结构复合物,并且识别的部分复合物和某种类型复杂疾病高度关联。此外,MPSOPC还具备运行效率高、鲁棒性强的特点,因而可以成为帮助识别发现潜在特定疾病致病基因集和新药物靶标的一个有效工具。
其他文献
自励异步发电机(self-excited inducti on generator,SEIG)具有结构可靠,维护成本低,不存在高温易退磁风险等优点,使得SEIG在海岛、舰船、航空、钻井平台等独立式发电系统中得到了广泛应用。随着国内外风能、水能与海洋能等分布式发电系统的高速发展,SEIG作为新能源发电系统的有机组成部分,其相关稳定性边界与本质机理等问题需要进一步展开分析与研究。  建立有效的自励异步
自21世纪以来,磁性材料在电气工程领域的应用越来越普遍,并且与信息技术、国防技术和国民经济的各个方面密切相关。其中,超微晶合金与传统磁性材料相比,具备更高的饱和磁通密度、更高的磁导率以及更低的高频损耗等特点。超微晶合金因这些良好的电学和磁学性能,在电力设备的应用等方面拥有巨大的潜力。所以,研究它的磁特性有着十分重要的意义。本文对超微晶合金和软磁复合材料进行了一维高频磁特性测量实验,分析了这两种材料
随着时代的发展,人们的生活方式发生了深刻变革。符合社会需求的高铁列车、新能源汽车以及飞轮储能等一系列新时代产物登上了历史舞台,而异步电机在其中扮演了至关重要的角色。异步电机因其结构简单,成本低廉,运行可靠耐用,维修方便等优点,成为应用最广泛的电机。本文从异步电机稳态模型入手,提出一种新的异步电机弱磁控制策略,简化异步电机弱磁控制思路,提高控制精度并针对电机带载能力和效率优化进行深入设计,并依据滑模
菊科紫菀属植物紫菀(Aster tataricus L.)干燥的根和根茎为常用中药材,别名青菀、还魂草等,具有润肺化痰、止咳痰之功效,主治痰多喘咳、新久咳嗽、劳嗽咳血等症。紫菀属化学成分丰富主要为萜类及其苷,其中三萜皂苷是本属主要特征性成分,环肽是该属特色化学成分,至今菊科环肽仅在该种发现。我们对紫菀进行了系统的化学成分研究,从中分离鉴定了19个环肽化合物,其中2个新骨架环肽tataricin A
基于脑-机接口(Brain computer interface, BCI)的稳态视觉诱发电位(Steady state visual evoked potential, SSVEP)在康复医疗、智能车、娱乐、军事和智能家居等领域有着很广泛的应用。上述系统的人机交互效率与被试的分类准确率密切相关,然而被试的个体脑结构差异、疲劳状态等因素均会导致被试的分类准确率降低,从而影响BCI系统的性能。为了提
长江三峡钢丝绳全平衡垂直升船机是保证航道畅通的一个重要的组成部分,该文建立了三峡升船机电力拖动部分的动态数学模型,并根据离散相似原理将数学模型转化为仿真模型:对系统参数进行了整定;用VisualC++编制了仿真程序,对系统的正常工况,事故工况,各种扰动等多种工况进行了仿真,并对结果进行了分析和总结,为三峡升船机电力拖动部分的设计和方案调整提出了自己的观点和看法.该文提出了一种对存在多电机耦合的矢量
学位
马铃薯产量高、种植广泛,是世界第四大粮食作物,在我国农业生产中占有重要地位。作为马铃薯的常见病害,早疫病和晚疫病严重制约了粮食产量的提高,严重影响粮食安全。因此研究马铃薯早疫病和晚疫病的快速准确检测对于实际农业生产有重要的意义。  传统判断农作物病害的方法主要有两种:一种方法是采用知识图谱的方式来判断病害,通过对比病害图谱来判断病害,该类方法的局限性在于准确率低且准确率和经验有关;另一种方法是基于
学位
异构网络中包含丰富的生物信息,包括药物和疾病的特征和药物和疾病之间的连接性等,这些信息可以用于预测药物和疾病之间的关系,因此整合异构网络信息是当前计算药物重定位研究的热点。网络表示学习是将网络中每个节点表示成低维特征,从而提高药物再定位的预测能力。综合这些信息,本文的主要工作如下:  本文提出了一种基于网络表示学习的药物重定位预测方法。从疾病和药物的异构网络中,通过基于跳图的网络表示模型以无监督的
随着深度学习技术的快速发展,关于模式识别的许多应用已经获得了相当大的改进。从对象检测和图像生成到重组文章和生成诗歌,应用场景变化很大。文本识别问题也是由深度学习算法完成学习辨别表示的一个很好的例子。  字符级别的文本识别可分为打印和手写字符识别。自动识别医疗表格和处理其他类型的文件,例如行政,邮政分拣自动化和银行支票识别,都是手写字符识别应用的例子,可以进一步分为离线或在线。  在这方面,已经研究
学位
近年来,串联质谱技术以其高灵敏度和高精度等优势成为了研究蛋白质组的关键技术之一。串联质谱数据承载着蛋白质及肽段的信息,对其处理分析不仅是计算蛋白质组研究中尤为关键的一步,也是后续生物蛋白质结构功能等分析的基本保障。然而,质谱数据分析在计算时间与计算规模上遭受了新的挑战,其主要有以下三个原因:一是随着质谱技术的高速发展,质谱数据集的规模呈爆炸式的指数增长,匹配海量的质谱数据成为了蛋白质组学的一个难题