基因表达数据分析与调控元件识别的算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：luosenkate

【摘要】

：

随着DNA测序技术和微阵列芯片等高通量技术的快速发展和日益成熟，DNA序列数据和基因表达数据等正以级数的形式增长。运用信息技术的手段，对大量的DNA序列数据和基因表达数据的

【作者】

：

谢雪英

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2004年期

【关键词】

：

生物信息基因分析基因调控生物数学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着DNA测序技术和微阵列芯片等高通量技术的快速发展和日益成熟，DNA序列数据和基因表达数据等正以级数的形式增长。运用信息技术的手段，对大量的DNA序列数据和基因表达数据的进行知识挖掘，获取新的生物学知识，已成为当前国际上生命科学和信息科学的研究热点，是生物信息学的主要研究内容之一，并取得了许多重要的进展。目前在生物信息学的研究中，人们针对DNA序列数据和基因表达数据的知识挖掘，往往是分开单独进行的。然而，实际上基因的表达与其DNA序列中该基因的启动子序列是有直接联系的。通过对DNA序列和基因表达数据的综合考虑，有可能使人们在基因组水平上更深刻地认识基因表达和转录调控。基于上述设想，我们的研究思路为：从大量的聚类基因表达数据，获得共表达的基因；分析共表达基因的上游序列中是否存在的共有序列模式。这些共有的序列模式可能就是候选的转录因子结合位点。在本论文中，我们还提出了若干新的算法，进行基因表达数据的聚类和DNA序列中调控元件的识别。论文的主要内容如下：1、本文提出了一种数据集分类数目的估计方法。我们从标准数据集的测试结果发现，基于数据集相似性矩阵特征值定义的指标能有效地指示分类的数目。根据数据集的特征系统，我们引入了新的聚类算法——谱方法(SpectralClustering，SC)来分析基因表达数据。根据数据集相似性矩阵的特征值，我们考察了几种估计聚类数目的方法。以酵母细胞周期为标准测试数据集，实验结果表明基于相邻特征值之差的eigengap指标可对基因表达数据的聚类数目作出有效的估计。采用eigengap对diauxicshift条件下的672个基因的分类进行估计，结果提示该数据集可分为两类；以标准数据集测试SC的聚类能力，与经典聚类算法K-平均方法相比，我们发现SC的聚类结果更稳定；向标准数据集中人为引入模拟噪声数据，结果表明随着噪声水平或宽度的增加，SC的性能总体上呈下降趋势，但其稳定性和聚类结果仍优于K-平均方法；参考eigengap指标，我们采用SC将diauxicshift条件下的672个基因聚成两类。参照酵母基因功能注释数据库(CYGD)，我们对这两类基因的功能进行了分析，发现在表达谱呈上调趋势的一类基因中，52％的已知功能基因与能量代谢相关；而表达谱呈下调趋势的另一类基因中，并且48％的已知功能基因与蛋白质的合成相关，73％的基因与蛋白质定位有关(45％的基因与蛋白质合成和定位相关)。相同或相似功能的基因聚在同一类有助于研究未知功能的基因。研究表明：SC算法简单、容易实现；通过提取数据集的特征信息，SC加深了数据间的相似性和差异性。与经典的聚类方法K平均法相比，SC聚类结果更稳定、抗噪声能力更强。2、绝大部分调控元件识别算法采用单碱基独立性模型，即DNA序列中单个碱基组成是独立事件。采用卡方检验方法，我们发现在DNA序列中存在着局部高阶相关关系。模拟数据集的测试结果说明卡方检验用于确定序列的上下文关系是可行且有效的。分析来自文献的10组酵母基因上游序列，我们发现其中7组序列具有2阶相关性，3组序列具有3阶相关性，1组序列具有4阶相关性。通过分析酵母16条染色体上的基因间区序列，我们发现染色体i，ii，iii，v，vi，viii，ix，x，xi，xiii和xiv上的序列整体表现出4阶相关性；染色体iv，vii，xv和xvi表现出5阶相关性；只有染色体xii表现出5阶以上的相关性。因此，我们认为独立性模型不能反映出这种高阶关系，不是表示DNA序列的一种最优模型。 3、GibbsSampling算法是目前使用最广泛的调控元件识别方法，我们采用线性插值Markov模型对原方法进行了改进(IGS)，并利用VC6.0开发了软件系统IGS。另外，IGS采取中心删除和边界扩展技术实现间隔子调控元件的识别；利用掩膜技术实现多个调控元件的识别。模拟数据集测试结果说明IGS在识别保守性差的模式以及抗噪声数据方面性能得到了提高，而且阶数高于实际值的插值模型对程序的处理结果影响不大；分析来自文献的10组酵母基因上游序列，我们发现IGS对其中8组的调控元件识别率高于常用的基于独立性模型的Gibbssampling算法，其余两组的识别率相同；根据diauxicshft条件下的基因表达数据聚类结果，我们分析了两组典型的共表达基因，除与已知调控元件非常类似的5个序列模式外，IGS还发现了2种新的候选调控元件。 4、GibbsSampling算法是一种启发式方法，不能保证得到问题的全局最优解。我们提出了一种基于信息含量的搜索算法。该方法考察问题可能的解(不是所有的解)，并在计算过程中及时删除处于劣势的解，降低了计算的复杂度。该方法不仅克服了GibbsSampling算法易陷入局部最优解的缺点，而且其计算复杂度为O(n*L2)，与模式的长度无关。

其他文献

子城联合建设集团: 危难之时有担当奉献大爱见真情

今年春节期间,一场突如其来的疫情突袭了祖国大地,随着冠状病毒的扩散,防控疫情的形势陡然严峻.rn子城联合建设集团有限公司和浙江子城工程管理有限公司董事长蒋国华作为嘉兴

期刊

恒基建设集团：心系公益以商营善

恒基建设集团成立已经25周年了，风风雨雨25年，一路走来，几经奋斗与梦想，可以欣喜地看到，企业的改革创新步伐更加稳健，战略布局更加完善，文化底蕴更加厚重，发展之路愈加宽广。　　从一家以五万元启动资金、三辆翻斗车、五六根槽钢起家的路桥民营企业，发展为产值近20亿元、年利税近5000万元、固定资产近4000万元的，拥有国家市政公用工程施工总承包一级资质的集团型企业，恒基建设集团无处不呈现着良性发展的勃

期刊

硅钢脱氧工艺及夹杂物行为控制研究

非金属夹杂物的数量、尺寸、类型及分布规律直接影响着硅钢的产品质量。不同的脱氧工艺必然导致钢中非金属夹杂物的类型发生变化,在开浇、换包等非稳态浇铸时期,卷渣、耐火材

学位

硅钢连铸非稳态脱氧非金属夹杂物

基于DSP的实时Holter系统

传统的Holter(采集盒+PC)设备一般先做24小时的ECG记录，然后进行离线分析。本文介绍了一种基于DSP的实时Holter，它具有双CPU(16位MCU+DSP)结构，MCU(MSP430F149)作为主机完成信号

学位

DSPHolter实时信号处理ECG

河北亿润拍卖有限公司: 以创新、诚信与责任铸就品牌

河北亿润拍卖有限公司已经度过十个年头了,十年的时间里,亿润抓住机遇,迅速成长为国内有影响力的艺术品保真拍卖品牌,为推动中国文化艺术品事业的传播和发展做出了贡献.

期刊

HPLC手性配基交换流动相添加剂法拆分若干种药物对映异构体的研究

药物对映异构体在体内呈现不同的药理活性和毒副作用。利用色谱法尤其是高效液相色谱法拆分对映体，是当前色谱学科中十分活跃的领域。常规的色谱拆分对映体有两种途径；间接法(

学位

高效液相色谱手性配基交换流动相添加剂法对映异构体拆分甲磺酸帕珠沙星福多司坦物对映异构体药物拆分

高远集团: 不忘初心,积极履行社会责任

文化是一种力量,是精神与信仰、理想与信念的力度,能够在精神与物质的转化过程中创造无限可能.高远集团靠着“干事、干实事、干成事”的企业精神,从一个只有二十几个人的小企

期刊

废塑料—铁鳞类Hoganas还原的实验研究

本工作将废塑料综合利用与铁鳞还原生产粉末冶金铁粉相结合,在实验室建立单坩埚内配废塑料铁鳞类Hoganas还原体系.在此还原体系上,实验研究了废塑料种类、配加量、还原温度、

学位

铁鳞废塑料直接还原动力学热重实验

系统发生生物地理学在细菌和病毒基因组分析中的应用

系统发生生物地理学(phylogeography)是从系统发育角度来研究基因系谱（尤其是种内和近缘种间）地理格局、历史演化以及形成的原理和过程的科学。　　对系统发生生物地理学做了较

学位

系统发生生物地理学基因组分析系统发育分析结核分枝杆菌禽流感病毒历史传播

基因表达数据分析与调控元件识别的算法研究

其他学术论文