【摘 要】
:
随着新一代测序技术的发展,人们发现在真核生物基因组中并不是所有的RNA都能编码蛋白质,其中大部分基因转录生成的RNA都不能编码蛋白质,这些RNA称为非编码RNA。其中一种新兴的非
论文部分内容阅读
随着新一代测序技术的发展,人们发现在真核生物基因组中并不是所有的RNA都能编码蛋白质,其中大部分基因转录生成的RNA都不能编码蛋白质,这些RNA称为非编码RNA。其中一种新兴的非编码RNA是长链非编码RNA(long non-coding RNA,lncRNA),它们长度大于200nt,并且有和编码蛋白基因几乎一样多的数目。近年来,人们发现lncRNA在真核生物体内有着多种多样的生物学功能,它们能够以多种方式参与基因的表达调控。lncRNA也是由DNA序列按照碱基互补配对规则转录生成的,在转录过程中也会受到转录因子的调控作用。在先前的研究中,人们往往只针对转录因子对编码蛋白基因的调控作用,而不了解转录因子对lncRNA基因的调控作用。 在本课题中,我们首先研究了不同细胞系中lncRNA基因和编码蛋白基因的表达情况。我们又基于SVM模型,利用H3K4me1、H3K4me2、H3K4me3、H3K9ac、H3K27ac以及H3K27me3这六种组蛋白修饰来分析lncRNA基因和编码蛋白基因的启动子。最后,基于混合朴素贝叶斯方法,利用转录因子PWM得分、DNaseI footprint数据、六种组蛋白修饰数据,我们构建了贝叶斯分类模型预测转录因子对lncRNA基因的调控。 我们发现lncRNA基因的表达量以及表达比例普遍比编码蛋白基因的低,这说明在真核生物中细胞系还是主要表达编码蛋白基因,同时也说明lncRNA基因比编码蛋白基因具有更高的组织特异性和细胞特异性。我们还发现,lncRNA基因具有和编码蛋白基因相似的启动子区域,我们能够像分析编码蛋白基因的启动子一样来分析lncRNA基因的启动子区域。最终,我们发现我们构建的贝叶斯分类模型具有很好的预测能力,能够较好的预测转录因子对lncRNA基因的调控作用。本文的研究有助于人们对lncRNA的调控机制和生物学功能有更深入和透彻的理解,有助于构建更详细的基因调控网络。
其他文献
问题分类(QC)是智能问答系统的关键技术之一。问题分类与文本分类相似,其目标是为每一个自然语言问句分配一个类别标签,此类别代表的是问句期望的最终答案的类型,在问答系统
随着移动互联网技术的发展及移动终端的普及,网络上出现了许多社交类的网站和应用,微博由于其自身操作简单,传播快速等特性,聚集了大量用户。每个用户每天可以接收成百上千条
税收是国家保障经济有序发展、政治稳定的强制性管理手段,严格、准确、及时的足额收缴税款体现着国家意志和利益。增强国家税控,保障合理有序竞争是建立国家税收制度的基本要
运动人体的检测与跟踪是当今计算机视觉领域的研究热点。随着社会公共安全体系的逐步完善,公共场所中对安全智能监控系统的要求越来越高,多家知名公司和科研机构对此都投入了
离群点挖掘是数据挖掘的重要研究内容之一,其研究目标旨在发现包含在数据中的少数异常而新颖的数据分布模式。近年来随着应用的不断深入而备受数据挖掘研究者们的关注,已经成
为保障公路交通运输的安全性及道路使用的耐久性、舒适性,减少超载超限车辆对道路破坏以及对运输安全带来的影响,需要测量车辆载荷,从而进行超载超限车辆的治理。传统的车辆
随着电脑及万维网的普及,通过Web获取信息并购买产品已经成为主流。然而网络上的信息资源以爆炸式的速度增长着,人们在购买产品之前要耗费大量的时间和精力去获取相关信息并
随着国民经济的快速发展与全球一体化的持续深化,近年来机电产品设备的需求量呈现出逐年大幅增加的趋势。工艺设计作为产品生产的核心环节,是控制生产成本,提高产品质量,缩短开发周期,合理利用工艺资源,提高企业竞争力的关键所在,也是数字化设计与制造以及定量化CAPP中尚待优化的难题。本文以机电产品的生产需求及工艺需求为基础,对机电产品工艺规划问题进行了较为深入地探讨,建立了工艺过程规划优化各个阶段的数学模型
随着计算机应用领域的不断扩张,计算机软件的开发规模逐渐扩大,软件复杂度不断增加,开发周期和开发成本也不断增长。为了解决这些问题,对象管理组织(OMG)提出了模型驱动结构
克隆代码普遍存在于软件系统中,它们可以加快开发速度,但同时也会引起一系列问题。当修改源代码涉及到某个克隆片段时,为确保克隆代码间的一致性,需要查找系统中所有与之构成