论文部分内容阅读
核小体是真核生物染色体的基本结构单位,它参与DNA复制、修复等很多生物学过程,特别是在基因表达调控方面起着重要的作用。随着后基因组时代的到来,大量的基因组测序数据的产生,如何研发出能够快速、有效地辨别核小体位置的方法,是目前表观遗传学重点研究的内容。尽管目前科研工作者已经开发了一些用于核小体定位预测的计算方法,但大多数方法忽略了DNA序列的结构属性和序列的长程关联性质,而这些特征往往在决定核小体的位置时起着非常重要的作用。考虑到以上因素,本文开发了一种称为“iNuc-PseKNC”的核小体定位预测软件,该软件可以预测人类、线虫和果蝇三个物种基因组中核小体的位置。首先,我们开发了一种新的用于表征DNA序列样本的特征向量——伪k联体核苷酸组分,该特征向量不但包含了能够描述序列短程关联的k联体核苷酸组分的信息,还基于刚体在空间中的六个自由度,考虑了DNA碱基二联体的物理结构参数的长程关联信息。伪k联体核苷酸组分的开发,为从短程和长程关联两个方面提取DNA的序列信息提供了有效手段。接下来,利用支持向量机来实现核小体/非核小体的判别。jackknife交叉检验的结果显示本文所开发的iNuc-PseKNC预测软件在人类、线虫和果蝇三个物种核小体定位预测上取得了较高的精度,分别达到了86.27%、86.90%和79.97%。同时,为了证明本文所开发的软件的优越性,利用之前其他研究人员已发表的相同数据集,将本文所用方法和他们所采用的方法取得的预测精度进行了对比,结果显示,本文所提出的方法在预测性能方面具有明显的优势。为方便的使用本论文提出的方法,我们把它做成一个在线服务,网络地址为http://lin.uestc.edu.cn/server/iNuc-PseKNC。该免费在线软件将为相关领域的研究人员提供帮助。进一步,本文对核小体在转录起始位点附近的分布情况进行了研究。首先,统计了酵母核小体实验测量数据在5015个转录起始位点附近的分布情况,发现酵母转录起始位点附近形成核小体的分值非常低,即启动子序列一般不形成核小体,这有利于促进RNA聚合酶及相关调控蛋白与启动子序列的相互作用。进而,利用开发的iNuc-PseKNC软件对人类、果蝇这两个物种转录起始位点周围核小体的分布情况进行了预测,预测结果显示转录起始位点附近的序列形成核小体的可能性分值普遍较低,这一结果不仅与现有的理论一致,而且也证明了本文所开发的iNuc-PseKNC软件在预测核小体类别方面具有非常稳定可靠的性能。最后,为了研究本文方法的普适性,我们将伪k联体组份的方法扩展应用于减数分裂重组位点的预测,预测精度达到82.2%,这一结果再次证明伪k联体核苷酸组分确实能够有效的提取DNA序列的特征。