全基因组DNA甲基化模式及其在复杂疾病分析中的应用研究

来源 :西安电子科技大学 | 被引量 : 5次 | 上传用户:and113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物科学和计算机技术的迅速发展,人类渴望深入认识复杂疾病的致病机理,表观遗传学的兴起为进一步理解疾病的致病机理提供可能。DNA(脱氧核糖核酸,Deoxyribonucleic acid)甲基化作为一种重要的表观遗传修饰,在基因转录、细胞分化、衰老和肿瘤的发生中发挥重要作用。因此,基于高通量DNA甲基化数据,识别病例和对照样本中的DNA甲基化差异模式,通过整合DNA甲基化和基因表达数据来分析疾病相关生物标记,以及研究DNA甲基化和基因表达的关系对于深入认识疾病的机理,疾病诊断和药物研发等有重要意义。本文对此展开研究,包括识别疾病和正常样本中的差异甲基化位点、差异甲基化区域,整合DNA甲基化和基因表达数据识别疾病相关基因,分析DNA甲基化和基因表达的关系。具体如下:1.提出了识别差异甲基化位点的相对熵方法,该方法较其他方法在识别差异甲基化位点上有较高的精确度。针对DNA甲基化数据非正态分布和样本间高异质性的特点,设计了QDML(Quantitative identification of Differentially Methylated Loci)来识别差异甲基化位点(Differentially methylated loci,DML)。该方法不依赖于数据的分布,同时可以量化甲基化位点的差异程度,并根据其值的正负直观地判别高甲基化位点和低甲基化位点。通过对该方法的理论推导,我们验证了其在识别DML的有效性。最后,将QDML分别应用于仿真数据和结肠腺癌真实数据,结果表明,该方法较传统的方法在识别DML时具有较高的精确度和较低的假阳性率。2.提出了识别差异甲基化区域的距离判别分析方法,该方法较其他方法有较高的特异性和敏感性。基于距离判别分析(Distance Discriminant Analysis,DDA)的方法在识别差异甲基化区域(Differentially Methylated Regions,DMR)时,不需要预先对甲基化位点进行聚类或设定区域的大小,仅需要对其区分病例和对照样本的能力进行评估,因此对所识别的区域大小没有限制。将其应用到仿真数据,并与Bumphunting和Ong’s方法比较,结果表明,该方法具有较高的特异性和敏感性,对异质数据较鲁棒。最后,将该方法应用到乳腺癌和结肠腺癌真实数据,同时整合基因表达数据,识别了可能的功能DMR。结果表明,大多数功能DMR是高甲基化区域,并且位于CpG富集区域。这一结果与人们通常认为的CpG富集区域在癌症中发生高甲基化一致。分析基因在不同疾病下的功能DMR,发现其对不同疾病有不同致病机理。3.提出了识别疾病相关基因和基因模块的加权网络方法,该方法整合了DNA甲基化和基因表达数据,识别了与疾病相关的基因和基因模块。使用蛋白质相互作用(Protein-Protein Interaction,PPI)作为先验的基因网络,通过整合DNA甲基化和基因表达数据,将基因表达和基因中所有甲基化位点作为基因的特征,利用主成分分析(Principal Component Analysis,PCA)和典型相关分析(Canonical Correlation Analysis,CCA)相结合的方法分别计算病例和对照样本对应的基因网络中的边权重,构建基因加权网络。比较两个加权网络的结构特性,识别在网络结构参数上具有显著差异的基因作为疾病相关基因,并且根据这些基因识别与疾病相关的基因模块。该方法在计算网络权重时,并不仅仅将基因中甲基化水平的均值看作基因的特征,而是将基因中的所有甲基化位点均看作基因的特征,因此保留了基因的所有甲基化信息。将该方法应用到真实的乳腺癌相关数据,成功识别了众多已知的与乳腺癌相关的基因。4.提出了分析DNA甲基化和基因表达关系的差异分析方法,为理解复杂疾病的表观调控机制提供了重要依据。分析七种癌症中DNA甲基化和基因表达的关系,解释DNA甲基化对基因表达影响。差异分析的方法不仅计算了基因表达以及不同基因区域的DNA甲基化在病例和对照的差异,而且分析了甲基化差异和基因表达差异的关系。该方法从差异的角度分析了DNA甲基化的改变对基因改变的影响。将该方法应用于7组不同的真实癌症数据集,我们发现不同基因区域的DNA甲基化对基因表达的调控模式不同,不仅存在负调控关系,同时也有小部分的正调控关系;发现区域gene body的甲基化差异与基因表达差异的显著相关关系在所有基因中出现频率最高,这说明了gene body区域内的甲基化对理解癌症的致病机理有重要作用。另外,我们发现癌相关基因中甲基化差异最大的区域往往位于TSS1500、gene body和3’UTR,这一结果表明,这三个区域可能是与癌症最相关的区域。
其他文献
采用经处理过的正常人尿液作为模拟体系,研究了金钱草对草酸钙晶体生长的影响.使用SEM,FT-IR和XRD等测试手段对所得晶体进行了表征.结果发现:在正常人尿液中生成了一水合草酸
依据用户满意度模型,构建搜索引擎用户满意度评价指标体系,以用户满意为标准对搜索引擎进行评价。基于运用单一评价方法评价同一社会现象时,评价结果存在差异,提出一种系统综
目的:探讨发生药源性过敏性休克的基本规律,为临床安全用药和防范严重不良反应提供参考。方法:采用回顾性研究方法,对中国期刊全文数据库(CNKI)2016~2017年报道的药源性过敏性
基于波特钻石模型,引入产业集聚作为外部因素构建修正钻石模型,从生产要素、市场需求、相关和支持性产业、企业策略结构与竞争、政府政策、发展机遇、产业集聚7个角度分析影
鄂伦春族生活在我国的大小兴安岭,以狩猎捕鱼为生,在漫长的生产生活历程中,创造了独特的民族文化,鄂伦春族剪纸是其中的佼佼者。生产方式经历了猎业、林业、农业、多种经营,
<正>我国现阶段基本公共卫生服务是根据居民的主要健康问题及其危险因素,按照干预措施的投入产出比、经济社会发展状况和国家财力等来筛选确定,主要通过城乡基层医疗卫生机构
随着国家“新型城镇化”战略的提出,我国基础设施建设步伐不断加快,城市变化日新月异,直接导致对城市道路网数据现势性的需求不断增加。本文针对城市道路网的匹配问题展开研
<正>动脉粥样硬化是全身动脉广泛受累的病变。斑块形成是动脉硬化的明显特征,可以反映动脉粥样硬化的程度。颈动脉粥样硬化及斑块作为全身动脉粥样硬化的一个表现,常被用来反
由于给排水工程与人们的日常生活紧密相关,因此给排水工程的施工质量备受关注。为了保证人们对生活品质的追求,需要专业技术人员不断学习与探索,促使现代建筑给排水工程施工