基于基因关联网络的表型相关性分析算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:A251321741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序开启了“组学”研究的大门,其中基因型变量与表型变量之间的关系是一项重要的研究内容。表型分子的起源和表型之间的关系的澄清,成为生物信息学和医学研究的一个关键任务。从生物学的角度来讲,表型会经历一个复杂的过程才能发生和发展,这个过程伴随着多基因间的相互作用,随着近年来实验水平和检测方法的不断提高,基因数据的完备性也越来越高,以基因网络为框架的研究方法为分析表型的发生和发展提供了新的思路。本文通过整合各类生物信息学知识,构建基因关联网络,提出算法准确地进行表型相关性分析的研究,可以更深入地理解表型之间的关系,为系统生物学进行表型相关性分析提供了指导和参考。本文整合物理蛋白质交互组数据和基因表型数据,构建基因网络,引入表型相关性算法在基因网络中分析表型之间的关系并使用实验验证算法的性能。本课题主要从以下几个方面进行研究:本文通过整合物理蛋白质的相互作用组构建基因网络,使用统一词汇表映射工具将不同数据规范成统一格式,构建出完备性高的基因网络。本文通过关联表型和基因数据,在基因网络中识别和定位表型模块,结合渗流理论在网络中引入自定义变量进行聚合基因模块的识别,并进行统计学分析。本文提出并改进算法来进行表型相似性分析,并基于表型的相似性与共享蛋白质相互作用有关这一理论,提出了基于网络的分离度的表型相似性算法和基因的邻居频率算法。本文使用已经成熟的算法和数据集来验证结果,使用包括基因本体等成熟的数据集和对应的相似性算法来验证我们的算法的性能,并引入重启动随机游走算法来进行表型相似性对比。本文在基因网络中提出的表型相关性分析算法,能够很好的量化表型之间的关系,并总结了基因网络的完备性和网络的初始权值等因素对不同算法产生的影响,为进一步探索表型的发生和发展机理提供帮助和指导作用。
其他文献
为了明确准噶尔盆地玛南斜坡风城组优质储层的地震响应特征,对云质岩、火山岩等优质储层进行准确识别。本文在前人研究成果的基础上,首先对目的层段进行精细构造解释;其次,利
吉林省桦甸市鹿角沟金矿床位于桦甸市红石砬子镇高兴屯东。近几年来通过大量的地质、物探和化探工作,已在研究区内发现了小型金矿床多处,具有良好的找矿前景。研究区位于华北
在多媒体、图像处理、模式识别等可容错的应用中,即使计算过程不完全精确也能产生有用的结果,此时容错应用中的精确计算电路就会造成系统硬件资源的浪费。非精确计算的思想是
尖状栅藻(Scenedesmus acuminatus)是一株生长快,油脂累积量高,具有可开发生产生物柴油的单细胞绿藻。本论文以产油尖状栅藻为实验材料,以改良BG-11(1.0S)为对照,设置0.25S、0.5S
伴随勘探开发程度的提高和技术的进步,复杂断块油藏也逐渐成为勘探开发的对象。储层作为油气勘探开发的直接目的层,准确地预测储层的性质和变化规律对于提高钻井成功率、降低
本文设计并合成出三个N-苯基咔唑-均苯三甲酰胺衍生物,并研究了它们的超分子自组装及空穴传输性能。以对乙酰氨基苯酚和卤代烷为起始原料,经过优化设计的反应路线成功合成出具有不同烷氧基链的N-苯基咔唑-均苯三甲酰胺目标分子7-C1、7-C6和7-C12。通过1H NMR、13C NMR和质谱,对目标分子以及重要中间产物的结构进行鉴定。通过紫外-可见吸收光谱、荧光发射光谱、浓度梯度核磁共振氢谱及偏光显微镜
随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表
东升超贫磁铁矿是近年来在木兰县新发现的磁铁矿,截止2014年4月30日,木兰县东升超贫磁铁矿累计查明(331+332+333)铁矿石资源储量3578.71万吨,mFe平均品位8.81%。其中探明的内蕴
复杂网络中的边呈现不均匀分布,某些顶点构成的群组内部边较稠密,而群组之间的边较稀疏,网络的这一特性即社区结构。大量真实网络中包含互相重叠的社区,相比传统的社区,重叠
北特鲁瓦油田石炭系油藏为大型碳酸盐岩油藏,油井产量高,储层横向变化大,非均质性强,孔隙结构复杂,油田开发难度大。本文以KT-Ⅰ油层组为研究对象,通过油田地质、测井、化验