论文部分内容阅读
辨识和分析组织特异性基因及其调控关系对理解生物体的内在活动机制、具有针对性的疾病诊断和药物设计具有重要的作用。然而现今利用现代计算技术挖掘基因表达的组织特异性及其调控网络的内在调控机制,仍然是生物信息学中最具有挑战性的任务之一。基因启动子区域的序列特征与细胞维持其基本功能及组织特异性功能密切相关,它成为研究组织特异性的一个重要线索。
本文设计和开发了发现SSR(Simple Sequence Repeats)模式和统计显著性模式方法,用于研究人类基因启动子区域序列模式与基因组织特异性表达关系。
SSR(Simple Sequence Repeat:简单序列重复)是指在DNA序列中串联重复的核苷酸序列。本文在给出SSR的形式化定义的基础上,利用启发式算法在启动子区域对SSR模式进行扫描,找出与人类组织特异性密切相关的SSR模式,并对发现的SSR模式的位置频率进行了分析和统计。通过对人类82个组织4552个组织特异性基因及924个HK基因的启动子(-1000bp~+499bp)区域进行SSR分析,实验结果共得到与82个人类组织特异性相关的SSR模式,并以肾脏和睾丸组织为例展示了部分实验结果。
统计显著性模式指在基因的非编码区域中高频出现的具有统计显著性的一段碱基序列,本文设计和开发了一种集成的模式发现算法,该算法主要包括三个主要阶段:模式搜索、模式融合及模式显著性检验。模式发现阶段融合了现有的三个模式发现算法:MEME,AlignACE及Gibbs Sampling;模式融合阶段提出了基于碱基分布的模式融合方法,此方法能有效去除阶段一中产生的大量冗余模式;最后,模式显著性验证阶段利用贝叶斯假设检验的方法验证了模式的统计显著性。实验将统计显著性模式发现方法作用于上述同样的输入数据,结果共得到来自于人类组织特异性基因的1618个模式,和来自HK基因的2个模式,这些模式中部分是现存在的模式,而另一些模式的功能还需要被验证。
通过对不同启动子区域两种模式出现的频率进行统计和分析,本文发现SSR模式在HK基因核心启动子序列区域的密度明显大于HK基因启动子序列的其他区域,而统计显著性模式则在近启动子区域出现的频率最大。基于此我们推断两种模式在调控位置和调控方式上有很大区别。SSR模式和统计显著性模式与基因的组织特异性关系的研究,为从基因的启动子序列结构特征方面了解人类组织特异性的内在调控机制提供支持。