论文部分内容阅读
随着DNA测序技术和微阵列芯片等高通量技术的快速发展和日益成熟,DNA序列数据和基因表达数据等正以级数的形式增长。运用信息技术的手段,对大量的DNA序列数据和基因表达数据的进行知识挖掘,获取新的生物学知识,已成为当前国际上生命科学和信息科学的研究热点,是生物信息学的主要研究内容之一,并取得了许多重要的进展。
目前在生物信息学的研究中,人们针对DNA序列数据和基因表达数据的知识挖掘,往往是分开单独进行的。然而,实际上基因的表达与其DNA序列中该基因的启动子序列是有直接联系的。通过对DNA序列和基因表达数据的综合考虑,有可能使人们在基因组水平上更深刻地认识基因表达和转录调控。基于上述设想,我们的研究思路为:从大量的聚类基因表达数据,获得共表达的基因;分析共表达基因的上游序列中是否存在的共有序列模式。这些共有的序列模式可能就是候选的转录因子结合位点。在本论文中,我们还提出了若干新的算法,进行基因表达数据的聚类和DNA序列中调控元件的识别。论文的主要内容如下:1、本文提出了一种数据集分类数目的估计方法。我们从标准数据集的测试结果发现,基于数据集相似性矩阵特征值定义的指标能有效地指示分类的数目。根据数据集的特征系统,我们引入了新的聚类算法——谱方法(SpectralClustering,SC)来分析基因表达数据。
根据数据集相似性矩阵的特征值,我们考察了几种估计聚类数目的方法。以酵母细胞周期为标准测试数据集,实验结果表明基于相邻特征值之差的eigengap指标可对基因表达数据的聚类数目作出有效的估计。采用eigengap对diauxicshift条件下的672个基因的分类进行估计,结果提示该数据集可分为两类;以标准数据集测试SC的聚类能力,与经典聚类算法K-平均方法相比,我们发现SC的聚类结果更稳定;向标准数据集中人为引入模拟噪声数据,结果表明随着噪声水平或宽度的增加,SC的性能总体上呈下降趋势,但其稳定性和聚类结果仍优于K-平均方法;参考eigengap指标,我们采用SC将diauxicshift条件下的672个基因聚成两类。参照酵母基因功能注释数据库(CYGD),我们对这两类基因的功能进行了分析,发现在表达谱呈上调趋势的一类基因中,52%的已知功能基因与能量代谢相关;而表达谱呈下调趋势的另一类基因中,并且48%的已知功能基因与蛋白质的合成相关,73%的基因与蛋白质定位有关(45%的基因与蛋白质合成和定位相关)。相同或相似功能的基因聚在同一类有助于研究未知功能的基因。
研究表明:SC算法简单、容易实现;通过提取数据集的特征信息,SC加深了数据间的相似性和差异性。与经典的聚类方法K平均法相比,SC聚类结果更稳定、抗噪声能力更强。2、绝大部分调控元件识别算法采用单碱基独立性模型,即DNA序列中单个碱基组成是独立事件。采用卡方检验方法,我们发现在DNA序列中存在着局部高阶相关关系。模拟数据集的测试结果说明卡方检验用于确定序列的上下文关系是可行且有效的。分析来自文献的10组酵母基因上游序列,我们发现其中7组序列具有2阶相关性,3组序列具有3阶相关性,1组序列具有4阶相关性。通过分析酵母16条染色体上的基因间区序列,我们发现染色体i,ii,iii,v,vi,viii,ix,x,xi,xiii和xiv上的序列整体表现出4阶相关性;染色体iv,vii,xv和xvi表现出5阶相关性;只有染色体xii表现出5阶以上的相关性。因此,我们认为独立性模型不能反映出这种高阶关系,不是表示DNA序列的一种最优模型。
3、GibbsSampling算法是目前使用最广泛的调控元件识别方法,我们采用线性插值Markov模型对原方法进行了改进(IGS),并利用VC6.0开发了软件系统IGS。另外,IGS采取中心删除和边界扩展技术实现间隔子调控元件的识别;利用掩膜技术实现多个调控元件的识别。
模拟数据集测试结果说明IGS在识别保守性差的模式以及抗噪声数据方面性能得到了提高,而且阶数高于实际值的插值模型对程序的处理结果影响不大;分析来自文献的10组酵母基因上游序列,我们发现IGS对其中8组的调控元件识别率高于常用的基于独立性模型的Gibbssampling算法,其余两组的识别率相同;根据diauxicshft条件下的基因表达数据聚类结果,我们分析了两组典型的共表达基因,除与已知调控元件非常类似的5个序列模式外,IGS还发现了2种新的候选调控元件。
4、GibbsSampling算法是一种启发式方法,不能保证得到问题的全局最优解。我们提出了一种基于信息含量的搜索算法。该方法考察问题可能的解(不是所有的解),并在计算过程中及时删除处于劣势的解,降低了计算的复杂度。该方法不仅克服了GibbsSampling算法易陷入局部最优解的缺点,而且其计算复杂度为O(n*L2),与模式的长度无关。