论文部分内容阅读
随着高通量测序技术的发展,产生海量生物数据,但是如何从生物大数据中挖掘出所蕴含生物规律是一个巨大的挑战。生物信息学是一门利用统计分析、计算方法以及其他学科来分析研究生物学的交叉学科。基因表达是一个高度调控的过程,一直是生物信息学的研究热点之一。基因表达过程可以分为转录和翻译两大部分,在每一阶段都有众多的调控元件、蛋白质分子参与其中,任何一个阶段出现异常,都有可能导致基因功能失活,影响基因的表达,最后导致疾病的发生。调控元件在基因组上广泛分布,深入参与基因的表达,调控元件的功能活性变化情况对基因表达有重要作用。落在调控元件上的基因突变可以改变元件的功能活性,对基因表达产生异常影响,是重要的分子致病机制之一。为了定量度量不同调控元件突变对基因表达的影响程度,本文对四类不同疾病的相关突变的分子调控机制进行了研究,发现不同种类的疾病突变具有不同特异性的分子调控机制。另外,利用序列模式挖掘建模方法,对调控元件中的启动子序列和增强子序列进行建模研究,进一步分析启动子和增强子突变致病机制。本文主要研究工作和创新之处如下:(1)不同种类的疾病突变富集于不同的调控元件区域。首先从FANTOM、ENCODE项目组公布的数据中获取九类调控元件,发现不同类型调控元件在基因组上的分布显著差异;然后从OMMI,GWAS,ClinVar,VarDi等数据库获取四类疾病突变数据:遗传疾病突变,癌症诱发性生殖细胞突变,癌症体细胞突变和复杂疾病突变;统计四类疾病突变在九类调控元件上的发布,发现遗传疾病突变富集于启动子,癌症突变富集于启动子、甲基化区域和染色体物理互作区域,复杂疾病在九类调控元件上的分布均匀。(2)利用序列模式挖掘模型,对启动子和增强子的突变致病机制进行研究,量化突变对启动子和增强子功能活性的影响程度。基因序列数据上蕴含着丰富的调控序列,它们能够在基因表达过程中发挥调控功能,产生不同的蛋白产物。结合序列的差异性以及保守性特征,本文融合频繁模式挖掘与PSSM模型,对启动子和增强子进行建模研究,实现了对启动子信号强度和增强子信号强度的定量度量,计算验证实验表明该模型能够有效的区分真、假启动子以及增强子。并进一步对启动子和增强子上的突变进行研究,结果显示启动子信号强度降低则致病概率增大,表明降低启动子信号强度的启动子单核苷酸突变与疾病有正相关性;而增强子上疾病突变导致的信号强度的改变,与疾病发生无显著相关性。