论文部分内容阅读
选择性启动子经常性的被发现在各种各样的细胞环境和组织类型中,这增加了研究人类基因转录调控的复杂程度。识别选择性启动子,并对它们在不同的组织中的活动进行注释是理解人类基因和转录调控性能的重大挑战。为了识别不同细胞系中的选择性启动子,研究了7种细胞系(A549,Gm12878,H1hesc,Helas3,Hepg2,Huvec,K562)RNA聚合酶II的Ch IP-seq实验数据,并训练出了这些启动子转录起始位点上下游共10000bps的RNA聚合酶II的分布模式,利用粒子群算法对该模式的参数作最大似然估计。对各细胞系表达基因进行启动子搜索,结果发现38%~46%的表达基因存在选择性启动子,启动子的选择性启动在基因表达水平上起重要调控作用,对基因组特征作分析发现80%~90%的启动子是Cp G-rich的。我们分析转录因子Pol R2A在7个细胞系中的结合位点,以及55种转录因子在细胞系Heles3中的结合情况,发现转录因子在转录起始位点上下游具有结合偏好性并且转录因子之间可能形成转录复合体共同调控基因转录。最新测序的转录因子结合位点Ch IP-seq统一peak数据,有助于进一步研究转录因子和启动子结合位置之间的关系,这两者在基因转录的共调解作用,以及更深一步的基因调节区域特征分析。