基于智能优化计算的双聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangyongqihx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘分析中,聚类技术是一种特别重要的工具,通过该技术,可以将数据集分成一些簇或类,使得这些类符合给定的指标,通过分出的类来了解数据的分布结构,进而对生产生活做出指导。随着技术的不断发展,数据不断积累,人们对数据的分析技术也不断提高,产生了大量对这些数据进行分析的聚类技术。在生物基因学研究方面,随着微阵列技术的快速发展,获取到的基因表达数据的维度也逐渐增大,这里所指的维度是指基因表达数据的行数和列数,由于这些数据的稀疏性以及高维性,再使用老方法进行分析,会遇到巨大挑战。双聚类技术是近年来兴起的一门新技术,该技术是一种二维聚类技术,它分别对二维矩阵的行和列同时进行聚类,对矩阵局部进行搜索,旨在发现高维数据的局部模式。通过双聚类技术发现的簇是行子集和列子集的组合,是二维数据矩阵的一个子矩阵,簇中包含的基因在所包含的条件集合下呈现高度的相关性。本论文所做的工作如下:1.对传统聚类技术的特点以及双聚类技术的常用的搜索策略进行了总结。在论文中,首先讨论了传统聚类算法的特点,并对传统方法进行了归类介绍,对个别经典的算法进行了较为详细的分析。在历史中,那些经典算法曾经对数据挖掘发挥了重要作用,但随着数据维度增高,一些新的问题不断出现,传统算法出现了严重的不足。双聚类克服了传统算法在高维数据分析中的不足,能够对高维数据进行有效分析。论文详细介绍了双聚类技术常用的几种搜索策略和几种经典的双聚类技术,并分析了各自的优缺点。群体智能优化算法是一种基于随机搜索策略的进化搜索技术,论文分析了群体智能优化在基因表达数据分析中应用的可能性,并介绍了常用到的一些智能优化算法。2.本文研究了粒子群优化(Particle Swarm Optimization,PSO)算法在基因表达数据分析中的应用,并以二进制版PSO作为基本框架,提出了一种基于模式驱动搜索的二进制PSO算法。粒子群优化是一种基于进化搜索策略的群体智能优化算法,该算法编程实现的时候比较简单,不需要一定的数学背景知识,但是基于进化搜索策略的算法在搜索效率上并不占优势,需要引入其他算子提高算法的局部搜索能力。模式驱动算子是一种利用基因表达数据自身轨迹信息进行搜索的算法,该算子的引用,改善了PSO算法的局部搜索能力,缩小了搜索空间,改善了算法的性能。3.本文改进了Mitra等提出的多目标双聚类算法,提出了一种新的多目标优化双聚类算法,该算法以NSGA-II为框架,对Cheng和Church的贪婪搜索算法和模式驱动算法进行了整合,以改善算法的性能。对基因表达数据进行分析时,常要考虑多个优化目标,而这些目标通常又是相互排斥的,在一个目标变好的同时,又会至少有一个目标变差,对于这种情况,比较适合使用多目标优化来进行求解,而NSGA-II是一种广泛应用的多目标算法。实验表明,在有限次数迭代下,本文所提出的算法能够取得分布较为均匀的Pareto前沿,且算法最终搜索到的双聚类的质量也比原算法要好。
其他文献
素质教育和新课程改革对小学语文阅读教学提出了更高的标准和要求.对于乡村小学教育来说,教师目前需要做的是立即加强阅读改革,注重学生综合素质的培养和发展,为乡村孩子的终
随着微电子技术的飞速发展,毫无疑问,21世纪将是信息的世纪。而半导体存储器却是微电子技术的基础。在半导体存储器这一大家庭中,静态存储器由于其广泛的应用成为其中不可或缺的
多媒体在教学中的运用,给我们的教学工作输入了新鲜血液,大大提高了课堂教学效率,同时也为创新教育开辟了道路.时代正在呼唤处于教育战线的教师们放弃传统的教学模式,利用先
在本文中,通过使用二维器件模拟软件MEDICI,对SiCGe/SiC异质结的光电特性进行了模拟。在这个异质结中,N型重掺杂3C-SiC层的厚度为1μm,P型轻掺杂SiCGe层厚度为0.4μm,二者之间形成
我在多年的教学实践中感到成功教育教学效果非常好,它能够提高学生的学习兴趣,激发学生的求知欲,增强学生的竞争意识,培养学生的创新意识.运用这种教学方法能够面向全体学生,
文章主要概述乡镇企业发展中的职能转变问题,剖析乡镇企业发展中存有的问题以及问题出现的具体缘由,分析乡镇企业职能转变的理论意义,使乡镇企业改革中的重点和难点问题得以解决
语文阅读写作对学生综合素养、写作能力、语文素养提高具有积极作用,并且通过阅读能够帮助学生积累更多写作素材,尤其是课外阅读培养,可以提高语言交流表达能力、文学素养.因
本文的任务是基于DSP技术,研究微装配系统中毫米级微机器人的运动控制和提高移动微机器人定位精度的方法及其控制系统的软硬件实现。本微型机器人系统的驱动器为自行研制的电
随着互联网技术的快速发展以及数字多媒体的广泛应用,大量图像数据应运而生。海量的图像数据以及图像的复杂性给图像检索带来了巨大的挑战,如何快速准确地检索出人们需要的图
蕨是我国山区、丘陵地区常见的多年生草本植物,根茎富含淀粉,俗称“蕨粉”,一般含量可达30~35%,可供食用或酿造,也可供医用。每年“立冬”以后是采蕨的好季节,因为在蕨的生长