论文部分内容阅读
近几十年来,随着高通量测序技术、新一代测序技术的不断发展,表观遗传学的研究越来越深入。基因表达调控一直是表观遗传学的研究热点,从DNA转录期到后期一系列的蛋白质转录,基因表达受到各种调控因子的影响,最终决定了细胞的生长过程。其中,增强子是一种重要而又必需的顺式作用元件,和启动子、沉默子等元件相互作用,调控基因的表达,有效提高了基因转录效率。随着ChIP-Chip以及ChIP-Seq测序技术的发展和成熟,越来越多的实验着手研究增强子与DNA序列、蛋白质以及组蛋白修饰之间的联系。研究证明,增强子具有一定的序列保守性,并且周围的组蛋白修饰呈现特异的分布规律,这些组蛋白修饰改变了染色体的结构特性,从而影响了基因的表达调控。如何定位基因组上增强子的位置,有助于了解人的基因表达调控并且推进表观遗传学的研究。由于增强子具有序列保守性,进行预测时,考虑增强子相关的DNA序列信息,有助于提高对保守性增强子的预测性能。鉴于此,本文提出了基于组蛋白修饰信息和DNA序列预测增强子的方法。文章介绍了如何利用单SVM模型进行增强子预测,并对预测结果进行相应的分析。考虑单SVM模型的不足之处,第三章对训练集以及算法进行改进,选取包含了DHS位点的训练集,并利用随机子空间法,在不同的组蛋白修饰空间上构建多个子分类器,通过投票决定最终的分类结果,得到了预测的增强子集合。该算法不仅考虑了组蛋白修饰信息对增强子的影响,并加入了相应的DNA序列信息,利用两种不同方面的特征进行增强子预测,提高了预测集在p300重叠比例以及序列保守性上的准确性。本文所提出的预测增强子算法结合了增强子区域的组蛋白修饰特征和序列信息,并且预测模型集成了多个子分类器的结果,一定程度上降低了噪音的干扰,提高了模型的稳定性和预测准确性,对全基因组预测增强子具有重要意义。