基于集成学习的基因选择与样本分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:syscom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术为疾病诊断、治疗以及新药物的开发提供了新的方法和手段。同时,基因芯片技术的运用也产生了大量的疾病相关的基因表达数据。对这类数据进行分析和处理,使人们能够从基因分子层面上了解癌症的发病机制,从而更加准确地进行癌症的诊断,引起了人们极大的兴趣。集成学习方法通过采用多个学习器对同一个问题进行学习,并把多个学习结果按照某一方式融合成一个学习结果,与单个学习器相比,具有更好的鲁棒性和准确性,因而被广泛应用到数据挖掘的各个研究领域,尤其是癌症相关的基因表达数据分析领域。本文主要围绕集成学习方法在癌症相关的基因表达数据分类中的运用展开研究。针对传统排序聚合方法可能忽视单次排序中得分较高的基因以及所产生的基因子集内存在冗余基因的问题,采用近邻传播聚类的方法从所有单次排序得分较高的前TopK个基因中选择具有代表性的、互不关联的基因用于癌症基因表达数据分类。在7个常用的基因表达数据上的实验结果表明本文提出的方法在相同基因个数的条件下具有更好的鲁棒性,同时能够获得较好的分类效果。针对基因表达数据分析时通常选择一个基因子集用于分类可能造成信息损失的问题,借鉴集成特征选择方法的思想,在排序融合和聚类分组的基础上,从所有基因分组中采用随机选择的方式选择一条基因生成基因子集,重复多次得到多个基因子集并分别训练基分类器,从而得到了多个既存在差异性,又具备区分能力的基分类器,最后采用多数投票进行融合集成。在7个基因表达数据集上的实验结果表明提出的方法分类误差较低,分类性能稳定,可扩展性好。
其他文献
随着计算机技术的发展,内存已经成为计算机能耗降低和性能提升的主要瓶颈。下一代内存必然有容量密度高,能耗低,性能好的特点。PCM有良好的伸缩性,一个单元可以存储多个比特
随着科技的发展,信息与通信技术已逐渐深入到人类生产生活的各个方面,对物理世界的信息进行获取、传输、处理和利用已成为信息与通信技术服务于人类的重要目标,一种新型的无
解剖学上将胆囊管、肝总管及肝脏脏面三者构成的三角形区域称为胆囊三角(又叫Calot三角)。胆囊三角是临床解剖上的主要标志在进行胆囊切除手术时要在该三角内寻找胆囊动脉并
近年来,互联网飞速发展,逐步深入日常生活的方方面面。传统TCP/IP网络以位置为驱动的通信模型越来越不适应当下或未来互联网以信息和服务为驱动的需求。针对传统网络在移动性、
煤炭的开采处于高危环境下工作,生产环节多,系统复杂,机电设备种类繁杂,并且协同工作关系复杂,必须做到统一管理和调度。因此,对井上、下不同作业场所的生产现状和设备运行数据的采
随着计算机网络通信技术的迅速普及,在日常生活中,数字图像的使用变得越来越频繁,保证其安全已经得到了大家广泛的关注。由于图像具有信息量大、相邻像素的关联性强的特点,传
近年来温室监控系统发展迅速,由于温室监控区域较大,因此需要大量的传感器节点构成大型监控网络,通过各种传感器采集温度、湿度等相关信息,实现自动监控。数据融合技术是解决
近年来,随着互联网应用的迅速发展和云计算技术的广泛应用,数据存储量呈现爆炸式增长。如何在大规模数据集中找到人们感兴趣的数据,帮助人们做出有效的决断,是一个亟待解决的
作为计算机辅助诊断系统的关键技术,医学图像分割问题一直是图像分割问题领域的热点话题。由于医学图像自身的多样性和复杂性,传统的分割方法不能良好的适用于医学图像分割,
无线传感网络(Wireless Sensor Network, WSN)作为一种新型的数据信息获取和处理模式,已广泛应用于军事航空、空间探索、环境监测和健康医疗等领域。然而在实际应用中,无线传