基于序列分析的模式识别方法和功效研究

来源 :山东大学 | 被引量 : 7次 | 上传用户:tan123456654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达(geneexpression)是指细胞在生命过程中,把储存在DNA中的遗传信息转变成具有生物活性的蛋白质分子。这一过程要经过转录和翻译两个步骤。其中转录是在细胞核内进行的,它是以DNA的一条链为模板,按照碱基互补配对的原则,在RNA聚合酶的催化下合成mRNA的过程。而翻译则是指以mRNA作为模板,以tRNA为运载工具,在有关酶、辅助因子和能量的作用下将氨基酸装配为蛋白质多肽链的过程。   转录因子结合位点(Transcriptionfactorbindingsite,TFBS),是指转录因子调节基因表达时,与信使RNA(mRNA)相结合的区域,它包括启动子、增强子和沉默子,又被称作顺式作用元件(cis-actingelement)。转录因子结合位点本身不编码任何蛋白质,仅仅提供一个作用位点,但是它通过与转录因子的结合来调控基因转录的效率和精确度。在分子序列集合中,每个转录因子的结合位点通常都有特定的模式,这些模式被称为Motif。而识别这些Motif对于研究基因的转录表达有着非常重要的意义。   最初的时候,人们往往在实验中使用凝胶迁移(EMSA)以及DBase足迹法来确定转录因子结合位点,但是这种实验的方法既费时费力,而且还有不确定性,不能实现大规模、高流通量的分析。而90年代中期出现的毛细管电泳技术使得测序的通量大为提高。近年来,利用染色质免疫共沉淀技术(Chip)与芯片技术相结合的方法,得到了大量的Chip-Chip数据。Chip-Chip数据的长度大约在800bp左右([26],[15])。如何在这些长度的数据中确定转录因子的结合位点,目前已经发展了大量的方法,但是对于转录因子结合位点的功效研究,目前还只有模拟的方法,理论的方法还很少有人做。而随着二代测序技术的发展,利用染色质免疫沉淀反应(Chip)与二代测序技术相结合,又产生了大量的Chip-Seq数据,那么如何在这些Chip-Seq数据上寻找转录因子结合位点以及研究这些位点的功效则成为一个新的课题。本论文将围绕这两个问题展开讨论。   1.基于长序列的Motif的功效研究   到目前为止,转录因子结合位点的识别方法已经有非常多,其中最成功的还是通过设计一个统计量研究模式在序列中是否过多表示。但是,对于这个统计量的功效问题,目前还只有使用模拟方法来研究的情况,并没有一个理论的方法来研究这个统计量的功效。在第2章,我们建立了一个隐马尔科夫模型来研究统计量的功效。   在这个隐马尔科夫模型中,序列的生成主要受三个元素的影响:背景序列,前景序列,Motif的分布。其中背景序列假定是独立同分布的随机变量序列,前景序列是指插入的Motif,而Motif的分布是指Motif插入背景序列的概率。我们还可以得到:背景序列的发射概率,Motif的位置权重矩阵,初始分布,状态转移矩阵,状态空间。设背景序列的长度为n,我们要研究的Motif为W,W的长度为w,那么我们用Nw(n)表示W在序列中发生的次数。   在理论部分,首先在第2.2.1节给出了Nw(n)的均值和方差的计算方法。其次,我们给出结论:对于发生次数比较频繁的模式,Nw(n)的分布可以用正态分布来近似,而对于发生次数比较少的模式,我们利用复合泊松分布来近似Nw(n)的分布。   在模拟部分,我们考虑了三个模拟。在第一个模拟中,我们考虑的模式是“11”,状态空间为{0,1},“1”在背景序列中的发射概率分别取0.1,0.5,0.7,Motif的密度分别取0,0.05,0.1。在第二个模拟中,我们考虑的状态空间为{A,C,G,T},我们考虑的模式为“ACGT”和“CGCG”两种,而对于核苷酸在背景序列中的发射概率,我们考虑了CGpoor,uniform和CGrich三种情况。在第三个模拟中,我们考虑了两个相对较长的模式“ACGTATC”和“AAGAAGAA”,并且也考虑了CGpoor,uniform和CGrich三种情况。对于这三个模拟,我们用三个不同的准则对我们的模拟结果和理论结果进行了比较。在第一个准则中,我们给出了模拟的均值和方差与理论的均值和方差的比较。在第二个准则中,对于模式“11”,我们给出了模拟的功效和正态近似的理论功效,而对于模式“ACGT”,“CGCG”,“ACGTATC”和“AAGAAGAA”,则给出了模拟功效和复合泊松近似的理论功效。在第三个准则中,对于模式“11”,我们给出了模式发生次数的qqplot比较图,而对于模式“ACGT”,“CGCG”,“ACGTATC”和“AAGAAGAA”,则给出了模式发生次数的模拟频率和复合泊松分布的比较直方图。在模拟的最后,我们还给出了一个求功效的在线项目。   在实际数据部分,我们给出了4个例子。在第一个例子中,我们通过考虑线虫,果蝇和大肠杆菌三种生物中CpG的富集情况,给出了正态分布下CpG岛发生次数的功效和序列长度的关系图。而在后面的3个例子中,我们考虑了转录因子SP1,锌脂蛋白Motif“C2H2”和结构Motif,结合他们的位置权重矩阵,我们给出了其在复合泊松近似下的功效检验和Motif密度关系图。   2.Motif在二代测序数据中的识别及功效研究   第一代测序技术虽然帮助我们完成了人类基因组草图的测序工作,但是却花费了30亿美元,并且用了3年的时间。这显然不是我们理想的测序方法。进入21世纪以来,第二代测序技术蓬勃的发展起来。第二代测序技术在保持了高准确度的同时,大大降低了测序的成本并极大地提高了测序速度,现在已经在生物学的研究中被广泛的使用。   在二代测序中,序列的reads(reads是实验得到的序列短串)是被随机的从基因组序列中抽取的。而现在研究二代测序数据的方法主要是先将reads映射到基因组序列上,然后基于这些映射的reads再分析数据。但是,许多生物体的基因组数据我们并不知道,即使我们知道生物体的基因组序列,reads在被映射到基因组序列上时,也不一定能够映射到唯一的一个位置。这就需要我们发展一种新的方法研究二代测序数据。   这里我们用数数的方法来分析二代测序数据。我们知道在分析一代测序数据时,已经发展了非常多的方法用来研究模式在一条长的序列中发生次数的分布问题。但是,目前还没有发现有人在二代测序数据的基础上研究模式发生次数的分布问题。在第3章,我们建立了一个概率模型,这个模型的背景序列是独立同分布的随机变量序列,长度为n,然后,在这个背景序列中随机的抽取M个长度为β的reads,对于模式W,令Nw(M,n,β)表示模式W在这M个长度为β的reads中的发生次数。   在理论部分,同上一部分相同,我们在这里也给出了Nw(M,n,β)的均值和方差的计算方法,我们还考虑了正态近似和复合泊松近似这两种情况,而对于复合泊松近似的情况,我们还分别考虑单链模型和双链模型两种情况,并给出了这三种情况的全变差的上界。最后,我们利用第2章建立的隐马尔科夫模型,还讨论了Nw(M,n,β)的功效问题。   在模拟部分,我们考虑了5个不同的模式:“TAT”,“ACGT”,“CGCG”,“ACGTATC”,“AAGAAGAA”。核苷酸的分布,我们仍然考虑了CGpoor,uniform和CGrich三种情况。在所有的模拟中,我们给出了模拟的直方图和复合泊松近似的概率分布的比较图,并在有些情况下还加入了正态近似分布的密度曲线图。在模拟中,我们还考虑了模式发生次数的功效问题,并对这5种模式发生次数的理论功效和模拟功效做了比较。我们最后还给出了一个计算模式的p-值的Matlab程序。   在实际数据中,我们分析了转录因子GABP的结合位点。根据[64]给出的chip-seq数据,我们通过复合泊松近似得到了所有长度为6的模式在control数据和Chip-seq数据中的p-值,并通过将p-值最小的10个模式拼接,我们得到了和实验测序完全一致的模式。
其他文献
算子矩阵是近年来算子理论中最为活跃的研究课题之一,其研究涉及到基础数学与应用数学的许多分支,如矩阵理论、优化理论和量子物理等等.本学位论文主要考虑算子矩阵的补问题和
在统计学基础上提出的机器学习方法SVM (Support Vector Machine)在训练学习机器时,其学习方式是SRM (Structural Risk Minimization)准则,因此,学习机器不光具有简洁的数学
压缩感知理论(CS)主要利用信号的稀疏性先验信息,在构造特有的稀疏模型的前提下,用远低于传统奈奎斯特采样定理所要求的采样率,成功实现了信号的采样与压缩同时进行,并精确重
风险价值(VaR)描述了金融机构所而临的市场风险的测量问题,在1993年被G30集团提出之后便成为金融界测量市场风险的主流方法。各种测量方法的核心思想是刻画资产收益率的分布,
在通常的驱动响应同步模型中有一个驱动系统和一个响应系统,我们称之为一对一系统,因此人们自然会问两个驱动系统和一个响应系统能否实现同步?研究这个问题是有意义的,比如在
摘 要:随着西北油田老井侧钻工艺的继续推广,直井侧钻已经成为老井复产、提高最终采收率的一条公认的有效途径。为了达到避水采油和保证施工安全,油田继续实践使用了随钻定向扩孔技术配合下步膨胀管施工,该技术使用国产双心钻头+进口高效螺杆,一次完成定向钻进和扩孔工作,有效地缩短施工周期,该技术的使用较以往采取定向钻进和扩孔分开施工的工艺流程节约钻井周期8天以上,同时避免了扩孔器在井下工作的安全风险。  关键
不动点迭代(Fixed-Point Continuation,FPC)算法利用不动点定理实现迭代,不需要计算二阶Hessian阵,操作步骤简单,计算复杂度较低,是目前压缩感知(Compressed Sensing,CS)中一
排序问题普遍应用于管理、经济等学科领域,是组合最优化中的一类重要问题。随着现代工业的发展,排序问题已经突破经典排序问题的局限,工件的加工时间是一个变量,它因工件的开工时