粒子群算法在基因表达数据聚类分析中的研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhehong220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的发展,特别是进入后基因时代,基因芯片技术得到了越来越广泛的应用,这直接导致了基因表达数据的大量积累,而如何从海量的基因表达数据中提取出有意义的生物学信息己成为当前生物信息学研究的热点。聚类分析是生物信息学的主要分析工具之一,能将表达模式相似的基因聚集在一起,根据已知基因的功能可以推断出未知基因的功能。本文对基因表达数据的聚类分析进行研究,介绍生物信息学中常用的聚类算法,分析其各自的特点,根据已有的算法提出本文的改进算法。粒子群优化算法(Particle Swarm Optimization,PSO)源于对鸟类群体行为的研究,是一种全局优化算法,算法简单,搜索速度快。本文在深入研究PSO算法的基础上,将其应用在基因表达数据的聚类分析中。在PSO与K-means混合算法的基础上,对算法进行改进,虽然混合后的算法PSOK-means增强了算法的收敛速度,但依然存在两个问题:PSO算法的早熟问题和聚类的K值问题。针对这两个问题,本文提出了如下改进算法:(1)算法早熟问题。对于早熟问题,本文提出了一种双扰动的粒子群聚类算法——DDPSOK-means,改进思想是检测算法的收敛时机,若算法收敛,则进行惯性权重和极值的双扰动,使粒子能跳出局部最优的状态,从而再次进行全局搜索,直到多次扰动算法不再进化为止。惯性权重采用非线性的惯性权重策略,而扰动时采用随机的惯性权重策略。搜索时采用非线性的惯性权重策略能增强算法的搜索能力,因为非线性权重策略能平衡算法的搜索过程;扰动时采用随机的惯性权重策略,能增强粒子的多样性,使粒子能进行全局搜索。同时采用极值扰动的方式,对粒子的个体极值进行扰动,进一步改变粒子的速度和方向,增强了粒子跳出局部最优解的能力。(2)聚类K值问题,即算法聚类数目需要预先给出,不能在聚类过程中自适应调整。K值问题在聚类研究中一直是一个重要的研究方向,因为K值选取的好坏严重影响到聚类结果的好坏,不同的K值将导致结果差别非常大。本文对适应度函数与K值的关系进行研究,发现适应度函数值随K值的增大而减小,并且减小的速率在标准K值处突然减小,利用这个规律,提出变化率公式对拐点进行捕捉,最后在DDPSOK-means的基础上提出了自适应K值的粒子群聚类算法。针对粒子群易陷入局部最优解问题和聚类的K值问题,本文提出了上面的两种改进方法,最后采用四组基因表达数据对改进的算法分别进行了验证,实验结果验证了改进算法的有效性。
其他文献
随着信息技术的不断发展,在线社交网络给用户带来了许多富有创意的服务,同现实社交网络一样,在线社交网络的构建基础是用户之间的朋友关系,而朋友推荐服务的提出是为了帮助用
我国经济总量的增加推动着城市的发展,城市污水处理规模的日益增大、污水的处理能力不断提高,势必导致大量剩余污泥的产生。在污水处理的过程中,“泥水并重”的理念被广泛认
采用SUS304不锈钢和Q355GNHD耐候钢作为低地板车辆车体平顶和顶板边梁的主体材料,可以大大减少生产成本。同时,MIG钎焊热输入小,能够严格控制焊接变形,且焊后母材的性能基本
近年来,人类对地球资源的消耗高速增长,原材料供应日趋紧张,给人类的生存和发展敲响了警钟。因此,原材料的充分利用和高效转化成为人们首先要解决的问题。本论文针对淀粉直接
本文根据极地水域螺旋桨选材的特性和发展方向,选取00Cr13Ni4Mo超低碳马氏体钢作为研究对象。研究热处理工艺对00Cr13Ni4Mo微观结构、强塑积和抗电化学腐蚀性能的影响;激光处
近些年,随着机器学习以及譬如射频和红外传感器等无线情景感知技术的快速的发展,WiFi由于其易获得性和低成本性,使得人们对WiFi的研究超越其最原始的用途,多种多样的无设备被
羌塘盆地地处我国青藏高原中北部,位于含油气丰富的特提斯构造域东段,夹持于北部边界可可西里-金沙江缝合带和南部边界班公错-怒江缝合带之间。属于中生代海相叠合沉积盆地,
随着无线网络技术和计算机应用的不断发展,基于位置服务(Location-based Services,LBS)在生活多个领域被研究与应用,主要用于方便人们实时获取需要的位置信息。当前室外定位
人体行为识别作为计算机视觉领域的一个研究热点,它受到了越来越多研究者的关注并且在计算机视觉领域有着广泛的应用,例如:智能监控、智能安防、虚拟现实、运动性能分析以及
人脸识别是图像处理、计算机模式识别、生物特征识别等领域的研究的热点,因其巨大的学术和实际应用价值而越来越受到广泛的关注。近几十年来在众多科研工作者们的努力下人脸