生物疾病数据挖掘与系统建模

被引量 : 0次 | 上传用户:yidao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,处理各个层次的生物数据,是当前生物信息学发展的重要任务。在海量数据中学习并选择有效的信息,来鉴别及分析一系列特定疾病的分子特征与规律,对于疾病的诊断与预后至关重要。更加关键的,从系统生物学的角度去研究疾病的分子机理,建立定量的调控网络模型,已经成为研究重大疾病分子机理的关键步骤。然而,现有的学习算法没能针对疾病相关数据自身的特点,为特定疾病设计学习高通量数据的计算方法,以至于未能充分反映疾病的全部关键特征;特别是定量模型的缺乏,使得一些基因表达调控网络没有得到有效的建立与分析。疾病相关的特征过多而生物实验数据不足所造成的“小样本问题”则是造成上述问题的主要原因之一。本文着眼于学习一系列疾病的关键特征,以及疾病相关定量的分子动力学机制,特别针对处理“小样本问题”为不同的生物医学问题设计了专门的算法。本文的主要工作任务包含三个部分:1,为肺炎以及龋齿的元基因组16s rRNA数据设计“特征合并选择算法”,学习并提取关于微生物种类的特征组合。该算法在充分降维压缩特征空间的同时保留了充足的原始特征数量,并且转化后的新特征组合之间没有重叠,使之更具有可理解性。经过两种不同疾病元基因组数据的验证,该算法不仅比其他方法拥有较高的识别率,同时也保证了较低的维数,使得模型更加稳定。2,针对白血病小鼠体内正常的造血干细胞Maff与Egr3两种基因高表达,并且以相反方式影响细胞周期的生物实验结果,本文通过生物信息网络资源,经过“穷举——模型选择”的方式筛选出Maff与Egr3调控细胞周期的定量模型。在模拟细胞周期一系列关键分子表达量以及结合位点序列扫描等方式验证模型之后,通过动力学模拟,计算得到Egr3强烈抑制细胞周期,而Maff促进细胞周期则要受到前者约束的一系列结论,同时也印证了白血病环境下的正常细胞“癌化——自我保护”的机制。3,针对脂肪细胞分化过程中的基因表达调控网络,为基因表达数据的小样本问题,设计了基因定量调控网络的参数估计算法——“小样本迭代优化算法”。该算法能够在样本量明显不足的情况下,正确而又准确地估计合理的参数,从而实现定量调控网络的构建,并且在人类与小鼠两个物种的调控网络得到了验证。此外,通过寻找分化前后差异表达较大的基因,对比计算发现了一系列额外的反馈结构并且得到了验证。在估算定量网络的基础上分别在参数大小,动力学结果,以及统计调控强度差异等方面比较了人类与小鼠脂肪分化的异同之处。得出了两物种在基因表达调控细节上的诸多差异与人类和小鼠脂肪分化系统的效率差异之间的潜在关系。
其他文献
在经济全球化的时代背景下,金融风险急剧放大,在国家金融体系中占据主导地位的商业银行,面临到更为严峻的挑战。尤其是近年来,国内曝光了一系列金融案件,银行的内部风险控制
黄土在我国分布面积广,厚度大。黄土滑坡是我国分布很广泛,破坏很严重的一种自然灾害,对人民生命和财产安全造成了极大危害,因此研究黄土边坡,在防灾减灾领域有着重要意义,数
样板间的设计就如人的衣着仪表,直接影响着目标群体对楼盘的整体印象,样板间设计包含很多方面的因素,其中品牌陈设品的选用使人们对样板间品质的认可起到一定的作用,品牌对他
首先给出了气体静压轴承承载能力及刚度随偏心量变化曲线;并在此基础上应用动力学仿真软件仿真了静不平衡、主轴铅垂度误差以及二者综合作用下的精密离心机主轴运动模式及其
企业应收账款管理存在的问题主要表现在以下几个方面:1、降低了企业的资金使用效率;2、夸大了企业的经营效果;3、加速了企业现金的流出;4、对企业营业周期有影响;5、增加了应
目前,建筑业投资不断增长的同时,安全事故也不断涌现。在安全事故中,很大程度上与施工过程中的质量控制有关,所以我们在加大投资的同时,更应该提高对从业人员的素质及安全教
目的:观察冠心病中医证型患者血管内皮依赖性扩张功能变化。 方法:应用高分辨超声技术检测98例冠心病患者血管内皮依赖性扩张功能,与30例正常人(正常对照组)进行对照。 结
近年来,章丘市围绕农业增效、农民增收、农村繁荣,确立了品牌农业发展的全新定位,坚持品牌立农、兴农、强农、惠农,相继实施了品牌农业建设年、推进年活动,努力促进农业提质
本课题分别从中、西医角度阐明了呼吸道感染性疾病的病因、病机与治疗,针对呼吸道感染性疾病的特点提出透表解毒法。并从非特异性免疫,特异性体液免疫和特异性细胞免疫三方面选
分析媒体融合背景下学术期刊面临的机遇和挑战,并探讨学术期刊在媒体融合时代的发展对策。认为组建学术期刊新媒体产业联盟是学术期刊在媒体融合时代发展的一条新思路。还探