基于聚类的混合基因选择方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:fangli95680
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片可以同时检测一个生物样本的所有转录因子活性。与传统的实验工具不同,基因表达芯片能够使我们对细胞在基因水平上有一个全局的认识。该技术已经被广泛应用到很多领域,如发现新的肿瘤亚型以及肿瘤分类。基因表达芯片所产生的海量数据显著特点是维度高,样本少以及大部分基因与疾病或肿瘤分类无关。基因选择不仅可以帮助我们找到有很好判别分类能力的基因,而且能够降低计算的时间与空间复杂度。因此基因选择显得相当重要。本文主要的研究工作如下:提出了基于特征相似性聚类的混合基因选择方法。基因表达谱数据有维度高、样本少的特点。因此数据通常有很高的冗余性。大量冗余基因的存在不仅计算开销高昂而且很难找到相关基因。在本文中我们首先用过滤法依据基因变量的打分值对其排序,然后采用特征相似性聚类算法对基因进行聚类并删除冗余基因。我们用四个公开的基因表达谱数据集来检验我们的方法。我们用支持向量机作为分类器来检验候选基因的分类预测准确率。实验结果证实我们的方法能够取得不错的分类准确率。基于聚类的混合基因选择方法往往都是依据某种相似度衡量标准将基因分布到多个簇中,然后从每一簇中挑选出一个打分最高的基因。由于聚类方法的差异,这种代表性基因选择方式,往往忽略了簇中某些重要信息,因此在本文中我们利用最大团查找算法,从每一簇中挑选一个或者多个基因作为候选代表基因。实验结果证明我们的方法是有效的。
其他文献
随着Internet的快速发展,许多关键服务都通过网络来提供,所以如何能够保证网络本身的安全和可用性成为网络安全研究中一个最重要的问题。拒绝服务攻击由于其容易实施、难以防范
随着处理器制造技术的发展,处理器中晶体管的集成度及处理器运行的时钟频率越来越高。处理器性能在不断提升的同时,其运行时产生的过高温度也带来了严重的问题。处理器温度过高
随着信息化建设的不断深入,企业数据信息量呈几何级数增长。信息量的不断扩张带来以下两个问题:一是存在着大量的重复数据,导致存储空间的大量浪费,企业的存储成本提高;二是
在Xen的虚拟设备模型中,网络设备以虚拟网卡的形式呈现给虚拟系统,虚拟网卡驱动包括前后端驱动,利用Xen提供的一些底层机制(I/O环、共享内存和事件通道等)共同处理虚拟系统网
随着中文操作系统在电脑,以及以移动电话、手持终端为代表的嵌入式产品中的广泛应用,汉字输入法在近两年内呈现出蓬勃发展的趋势。就其编码思想而言,可分为拼音输入法、形码
BP(Back Propagation)神经网络是目前人工神经网络中最具代表性和应用最广泛的模型之一。其结构简单,可操作性强,能模拟任意的非线性输入输出关系,在模式分类,图像处理,决策支持等
目前的森林火险等级预测方法是天气专家根据温度和湿度等数据给出火险等级,其结果很大程度受到人为因素影响,其精确性和时效性不足,而且森林险等级是由气象台所测数据分析的,根据
在信息化社会,每天都有大量的信息产生,信息量过大势必造成信息冗余,因此造成效率下降。人们迫切希望有一个智能识别信息的载体来帮助人们对事物有选择性的认知。行为识别是
近年,计算机技术的迅速发展和广泛普及,改变了人们传统的生产、生活和管理方式,同时也为违法犯罪分子提供了新的犯罪手段和空间。以计算机信息系统为犯罪对象和工具的新型犯罪活
随着智能化时代的到来,机器视觉技术,图像处理技术与人工智能飞速发展,极大推动田间智能除草技术不断发展与更新。智能除草装置相比传统的人工除草方式有很多优点,已成为农业