基因表达数据聚类算法研究

被引量 : 0次 | 上传用户:wangxingchuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大量基因表达数据由基因芯片实验产生,其中蕴含着丰富的能解释生命现象规律的信息,对这些基因表达数据分析对于理解遗传信息怎么变为功能基因产物非常有用。聚类算法作为一种广泛使用的重要分析方法,用于发现这些基因表达数据背后隐藏的生物信息。聚类算法基本原理是根据相似性度量将多元变量分为多个类。传统的基因聚类算法是分别对基因或条件进行聚类,也称单路聚类。这种聚类算法对基因聚类时是以全部条件作为特征来计算基因间的相似性,因此得到的结果只能包含全局信息。但是像基因这种高维数据含有大量的局部信息,为了捕获到基因表达数据中存在的局部信息,近年来出现一种能同时对基因和条件进行聚类的双聚类算法。尽管目前对双聚类算法有很多的研究,但是现有的许多双聚类算法在识别数据中含有的不同相关性类型的双聚簇(在条件子集下相关的基因子集)以及捕获数据矩阵中重叠层次结构的双聚簇方面存在限制。本文对几种常用的单、双聚类算法进行对比、分析的基础上,提出一种结合单聚类算法的双聚类方法。用本文算法和一些常用的双聚类算法对几种基因表达数据进行聚类分析,实验结果表明本文算在各项指标上都有较好的性能,与常用的几种双聚类算法相比,能够挖掘出更多更高生物学价值的基因。本文主要创新点包括以下几个方面:(l)通过有损数据编码和压缩原理对基因进行聚类,此算法根据聚类后使基因的总体编码长度最小原则对基因进行聚类。该算法的最大优点是可以自动确定聚类数。(2)在分析双聚类领域当前常用的几种重要算法优缺点的基础上提出一种结合有损数据压缩的基因表达数据双聚类算法。该算法用一种新的基于排序的目标函数,通过优化目标函数可以发现数据矩阵中任意位置的大体积高相关的重叠层次结构双聚簇。并且同一个双聚簇中可以存在正负相关的基因。
其他文献
本文通过采用计算MS指数、TC指数和RCA指数,对金砖国家的运输服务贸易的发展现状和国际竞争力进行了比较研究,得出了金砖国家的运输服务贸易的总体竞争力不强;中国的运输服务
分析我国医药第三方物流的现状,探讨传统医药企业对第三方物流的需求和传统医药企业向第三方物流转型具备的优势,不同医药企业物流向医药第三方物流转型及后期持续发展的策略
<正> 城市规模不断扩大,但随着经济的快速发展,水环境日趋恶化,城市水利凸现出滞后于经济社会发展的总体水平,滞后于城市建设。今后城市水利建设的重头戏将是水系综合整治。
目的观察微小RNA-1(miRNA-1)对自发性高血压大鼠(SHRs)肥厚左室心肌组织中连接蛋白43(Cx43)表达的调控及其意义。方法 18只17周龄雄性SHRs随机分为干预组(n=6)、阴性对照组(n
目的分析硫酸镁和硝苯地平联合治疗妊高征的临床疗效。方法随机抽取我院收治的98例妊高征患者,按照抛硬币法分为治疗组(49例)和对照组(49例),对照组予以硫酸镁治疗,治疗组在
<正>对于普洱咖农来说,今年的咖啡豆让他们无法入眠。"往年都是人来找豆,今年是豆找人。年初来收购的人多,我们不愿意卖,现在来收购的人少,我们想卖又找不到买家了"。保山市