多维生物医学数据的调控网络构建与分析

来源 :武汉大学 | 被引量 : 0次 | 上传用户:hoget
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量技术的不断发展,实验过程中产生了大量的全基因组SNP数据、蛋白质组、表观基因组、转录组及代谢产物组等高维多组学生物医学数据,这些数据具有高维小样本的特点。海量高维多组学生物医学数据为研究和揭示基因与基因及其产物之间的相互作用关系提供了机遇。网络在数据信息挖掘中扮演着重要的角色,基于网络的系统生物学方法已经成为研究生物系统复杂行为的强大工具。本文基于高维多组学生物医学数据,建立模型和提出智能优化算法,分别从大规模的基因调控网络和多层调控网络两个不同的网络层次来研究基因之间的调控机制。因此,本文聚焦基于高维多组学生物医学数据构建调控网络方法的研究及对构建的调控网络分析,主要研究内容包括以下三个方面:1.针对高维时序基因表达数据,提出了一种基于随机奇异值分解推断大规模基因调控网络算法。高维的时序基因表达数据具有维数高、时间点少且带有噪声的特点,为了解决这一问题,提出了一种基于奇异值分解构建大规模基因调控网络算法。首先用常微分方程模型刻画基因之间的调控关系,并将构建基因调控网络的问题转化为一个估计模型参数的优化问题。然后,将时序基因表达数据与高斯矩阵结合,可以对数据噪声进行平滑处理,有利于降低数据的噪声。最后,为了对高维时序基因表达数据进行降维,在提出的算法中引入了一个随机策略。一般来说,基因表达数据中只有少数基因在基因调控网络中起着重要作用。随机策略可以随机选择数据中部分基因来推断基因调控网络,而不是所有的基因数据。与原始的高维数据相比,降维后的数据更容易构建有效的基因调控网络。同时,在构建基因调控网络的时候容易引入过多的假阳性,我们在提出的算法中引入一个迭代策略来提高构建的基因调控网络的精度,降低网络的假阳性。研究表明生物网络通常是非常稀疏的。为了精确有效的评价构建的基因调控网络,提出两个新的网络评价指标-期望精度和期望误差。由于基因调控网络具有较高稀疏性,即基因调控网络中调控边的数量比网络规模要小得多。从而,导致假阳性与假阴性、真阳性与真阴性的数量不在一个数量级上。针对稀疏的基因调控网络,将网络的高稀疏性特征考虑到指标期望精度与期望误差的设定中。数值实验结果表明,相比较用精度和错误率评价生物网络,提出的两个新指标更加具有合理性。为了验证所提出的算法的性能,将提出的算法在Dialogue for Reverse Engineering Assessments and Methods challenge(DREAM)的四个著名的标准数据集上进行测试。实验结果表明,基于高维时序基因表达数据,基于奇异值分解构建大规模基因调控网络算法可以构建高精度,稀疏的基因调控网络。2.针对不同实验设置的呼吸道合胞病毒感染的转录组学数据,结合数据库信息及优化算法构建基因调控网络并识别网络的关键模块。接种预防呼吸道合胞病毒感染疫苗时容易引起疫苗增强性疾病。为了研究疫苗增强性疾病发生的机制,基于不同实验设置的呼吸道合胞病毒转录组学数据,提出一种结合已有数据库的优化算法来构建不同实验条件下的基因调控网络。为了降低实验数据的维度,在构建网络时通过Fold Change和T-test筛选呼吸道合胞病毒数据中有差异表达的基因。研究表明,基因调控网络规模是非常庞大的,无法靠观察和描述的方法来理解。使用模块探测算法Cluster-one识别基因调控网络中的重要模块,对基因调控网络的规模进行约减。每个实验设置下的基因调控网络可以识别多个关键模块,模块中的基因往往参与相同的生物过程或者具有相似的生物功能。在不同的实验条件下,我们不仅需要挑出相似性高的模块,也希望挑出差异性大的模块。为了挑选在不同实验条件或不同时间点差异性大的模块,我们提出一个模块差异性度量指标,即模块网络的差异性度。根据模块网络差异性度可以挑选出不同的实验条件下差异性大的模块。根据网络的差异性度对识别模块进行筛选,对呼吸道合胞病毒感染网络的模块中挑出两个差异性较大的模块。为了研究模块内部生物组分之间的关系,我们利用DAVID生物信息数据库对所识别的两个模块进行生物功能注释。模块中基因的KEGG通路分析和GO功能富集分析的结果显示,模块中的基因大都聚集在免疫相关的生物过程和通路上,这说明挑出的模块与呼吸道合胞病毒免疫增强性相关。3.针对多组学生物医学数据,通过构建多层调控网络来整合多组学数据。高通量技术的不断发展,生物实验过程产生了大量不同类型的组学数据,整合多组学数据构建多层调控网络可以更全面、精确地挖掘基因之间的调控关系。首先,用一组常微分方程模型来描述多层调控网络,并将整合多组学数据构建多层调控网络的问题转化为一个估计模型参数优化问题。其次,基于整合多组学数据,我们提出了一种递归正则化算法来推断多层调控网络。在构建多层调控网络的过程中,由于数据维数问题导致网络中出现假阳性和假阴性的调控关系,而变量之间的间接调控是导致假阳性的主要原因。为了降低多层调控网络的假阳性和假阴性,提出了一种多层调控网络的框架来优化网络。在构建多层调控网络的框架中,为了降低调控关系中的假阴性,我们提出了一种判断变量间调控关系有效性的动态阈值策略。我们将一个变量与其他所有变量间调控关系的四分之一分位数以下的值设置为零,并在递归正则化算法的下一个步骤中只重新估计非零的变量间的调控关系。使用CMI2对变量间的调控关系进行筛选,降低变量间的间接调控所引起的假阳性。我们使用两组仿真数据和两种类型的真实生物数据对递归正则化算法的性能进行评估,并将其与Narromi、HalfThr和CMI2NI等几种常用算法进行了比较。实验结果表明,该方法能有效地整合生物多组学数据来重构多层调控网络。
其他文献
本研究主要探讨了依恋自我模型具有什么样的结构特征。为此目的,我们测量了两种典型的自我结构的特征:自我复杂性和自我区隔性。我们认为,相比于依恋正性自我模型者,这些结构
人力资源规划是人力资源战略重要的一部分,随着企业竞争越来越大,以前的人力管理已经无法满足现在的公司发展所需,人力资源规划成为企业战略中关键的一部分,人力资源规划的优势也越显突出,并开始受到企业管理层的关注和重视,对于如何优化人员结构,提升人员素质,从而增强公司的竞争能力开始成为企业重视的话题。电力监理公司在监理行业中有较强的行业特征,在人力资源规划上面临着传统国有企业管理的缺陷,人力资源规划的重要
近年来,电力体制改革的呼声越来越高,国家也出台了一系列推进电力体制改革的措施。售电市场的成立将打破电力行业自然垄断局面,电网企业面临严峻的挑战。同时,正值“十四五”开局谋划之年,也为电网的发展带来新的机遇。本文以秦皇岛供电公司为研究对象,在梳理国内外文献的基础上,依托战略管理相关理论,综合运用PEST、波特五力模型、价值链和SWOT等分析工具,全面分析秦皇岛供电公司内外部环境,提出战略目标,并制定
自我管理是一种创新的管理理念和模式。在企业实践中,自我管理理论强调以人为本,以员工发展为中心,是一种可以促进员工发现自我价值的管理艺术,这也逐渐成为企业管理创新与优化的重要理论依据。温州C公司是温州平阳合成革制造与销售行业规模较大的公司,经过20多年的经营与发展,在公司发展的过程中,中层管理团队中逐渐出现工作模式固化、绩效低下、推诿扯皮、成长效果不佳等问题,而中层管理团队作为公司尤其重要的管理枢纽
在新课改的大背景下,大部分农村小学的数学老师针对传统的教学观念、以往的教学方式、老旧的评价方法等等,都在不同程度上地进行了改进,因为农村各方面的设施都不完善。需要
中国是礼仪之邦,自古以来便重视仪式教育。仪式具有特定的文化内涵,程序化的展演模式。学校仪式教育是传递思想政治教育内容与信息的重要载体,仪式教育所蕴含的的爱国主义情
英语写作能力通常被认为是最能体现学生英语语言能力的重要标准之一。它体现为能够正确传递信息、流畅表达思想。然而,高中生的写作水平较为不理想,英语写作教学也是教师面临的一大挑战。韩礼德和哈森提出的衔接手段理论:照应、替代、省略、词汇衔接和逻辑连接引起广泛关注。熟练掌握这五种衔接手段对英语写作有很大帮助。本研究试图将韩礼德与哈森的衔接手段理论运用到高中英语写作教学中,旨在检验衔接手段在写作教学中的有效性
卷烟现代零售终端是烟草行业连接广大消费者的桥梁和纽带,是培育品牌、服务消费的强大力量,是卷烟营销网络赖以生存的基础。随着国际控烟形势在我国的深入,卷烟品牌培育的空
随着计算机技术的不断发展,许多科学文献开始以电子版的形式发布和存储,这些资源中存在许多无法使用传统的OCR方式识别的公式。近年迅速发展的在线教育的应用中也有许多需要重用和检索的公式。为了重用和检索这些公式,需要将这些公式转换成文本数据。但由于数学公式的二维结构与复杂性,识别和检索数学公式仍然是一个难题。因此,实现一个数学公式的识别和检索系统对于文献资源的重用、在线教育乃至防止学术不端都有较大意义。
目的加深对川崎病并发胆囊炎、胰腺炎的认识,为临床早期诊断、治疗及预后评估提供参考。方法回顾性分析3例川崎病并发胆囊炎、胰腺炎患儿的临床资料。结果 3例患儿均符合川崎