基于组蛋白修饰信息和DNA序列预测增强子的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ningmengpan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着高通量测序技术、新一代测序技术的不断发展,表观遗传学的研究越来越深入。基因表达调控一直是表观遗传学的研究热点,从DNA转录期到后期一系列的蛋白质转录,基因表达受到各种调控因子的影响,最终决定了细胞的生长过程。其中,增强子是一种重要而又必需的顺式作用元件,和启动子、沉默子等元件相互作用,调控基因的表达,有效提高了基因转录效率。随着ChIP-Chip以及ChIP-Seq测序技术的发展和成熟,越来越多的实验着手研究增强子与DNA序列、蛋白质以及组蛋白修饰之间的联系。研究证明,增强子具有一定的序列保守性,并且周围的组蛋白修饰呈现特异的分布规律,这些组蛋白修饰改变了染色体的结构特性,从而影响了基因的表达调控。如何定位基因组上增强子的位置,有助于了解人的基因表达调控并且推进表观遗传学的研究。由于增强子具有序列保守性,进行预测时,考虑增强子相关的DNA序列信息,有助于提高对保守性增强子的预测性能。鉴于此,本文提出了基于组蛋白修饰信息和DNA序列预测增强子的方法。文章介绍了如何利用单SVM模型进行增强子预测,并对预测结果进行相应的分析。考虑单SVM模型的不足之处,第三章对训练集以及算法进行改进,选取包含了DHS位点的训练集,并利用随机子空间法,在不同的组蛋白修饰空间上构建多个子分类器,通过投票决定最终的分类结果,得到了预测的增强子集合。该算法不仅考虑了组蛋白修饰信息对增强子的影响,并加入了相应的DNA序列信息,利用两种不同方面的特征进行增强子预测,提高了预测集在p300重叠比例以及序列保守性上的准确性。本文所提出的预测增强子算法结合了增强子区域的组蛋白修饰特征和序列信息,并且预测模型集成了多个子分类器的结果,一定程度上降低了噪音的干扰,提高了模型的稳定性和预测准确性,对全基因组预测增强子具有重要意义。
其他文献
随着CDMA 网络应用的不断扩大,各个运营点使用的交换设备不断增多,给运营商和设备制造商维护这些设备带来了很大困难,往往只能等到出现了重大故障时才能发觉,并已经造成很大
软件测试是为确保软件的正确性而进行的一项重要活动,回归测试是软件修改后以确认修改的正确性而进行的测试工作,因而其执行测试用例的过程与前面的开发过程中的软件测试过程相
道路网是现实生活中地图的抽象,其结构为一个带边权重的图。其中,图顶点代表在道路网中的一个路段交界位置或是一个重要地理位置(如景区,重要医院,著名大学等),而两点之间的
  随着企业业务过程重组的广泛应用,工作流成为当前计算机学科的一个重要研究方向。作为一门应用性很强的新兴技术,它存在很多值得研究的地方。如何适应企业业务过程重组的需
本论文介绍了国际电信管理发展的过程,着重对eTOM,这种未来电信管理的框架模型进行了研究和分析。同时也对基于eTOM框架的新一代电信运营支撑系统NGOSS进行了分析。  本文还
随着各种网络攻击手段的多元化、复杂化、智能化,单纯依赖传统的操作系统加固技术和防火墙隔离技术等静态防御已难以胜任网络安全的需要.IDS作为动态安全技术之一,提供了实时
随着社会的发展和技术的进步,身份识别和验证的需求与日俱增,常用的身份识别包括,人脸识别、指纹识别、虹膜识别、声音识别等,而人脸图像由于具有辨识度高、获取性容易等优势
随着电信基础建设的高速发展,网络规模的迅速扩大,网络管理的质量和维护水平难以得到保证。与此同时,电信网络往往由若干不同大小的子网组成,包括不同厂家的网络和通信设备,
本文中提出并实现的智能网呼叫中心以市场需求为背景,结合了智能网与传统呼叫中心两者的优点。作者在智能网呼叫中心系统设计和实现过程中,遵循着不改变现有智能网结构原则,并在
随着计算机技术的飞速发展,计算机辅助教学成为一种新的教学手段。利用计算机高级编程语言开发教学软件可以改善各种教学软件之不足。为了解决数学和物理教学面临的现状,将计算