基于多特征的集成分类器在基因表达数据分类中的应用

来源 :哈尔滨工程大学 | 被引量 : 4次 | 上传用户：bm_imba

【摘要】

：

随着人类基因组计划的发展,DNA微阵列技术作为一项革命性的技术应运而生。它可以自动、快速、高效的检测成千上万个基因的表达情况,通过分析所产生的基因表达数据,可以在分子

【作者】

：

赵亚欧

【机构】

：

济南大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2008年01期

【关键词】

：

基因表达数据微阵列选择性集成粒子群优化算法分布估计算法多特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类基因组计划的发展,DNA微阵列技术作为一项革命性的技术应运而生。它可以自动、快速、高效的检测成千上万个基因的表达情况,通过分析所产生的基因表达数据,可以在分子层面了解细胞的生理状态,如生存、增殖、分化、凋亡、癌变和应激等等。这些问题对于医学临床诊断、药物疗效判断、解释疾病发生机制等方面有重要的作用。基因表达数据数目巨大且极其复杂,人们通过医学影像学的方法很难直接对其做出解释。因此,基因表达数据分类成为了生物信息学领域中一个十分困难的问题。早期,人们常常使用模式识别的方法,借助计算机的强大计算能力对其进行分类,取得了一些成果。最近几年,随着机器学习算法在生物信息学领域的应用日益广泛,机器学习的算法作为一种新兴的解决问题的方法被不少学者提出,用于基因表达数据分类。但遗憾的是,由于基因表达数据特有的样本少、特征多、非线性的特点,直接使用机器学习的方法还存在着一定的困难。这主要是因为:1.过多的特征使得重要特征被众多无关特征掩盖,使得分类器难以学习。2.样本数目过少,使得大部分分类器出现过拟合现象。为了解决特征众多的问题,往往通过对原始数据进行特征基因抽取以达到降维的目的;对于样本少的问题,常常采用分类器集成的方法来增强单个分类器的学习能力,从而提高分类的准确率。对于一个优秀的基因表达数据分类系统而言,特征基因的选择和分类器的集成是必不可少的两个步骤。然而,这两个步骤在实际应用往往是孤立进行的,前一个步骤并不能很好的为下一步奠定一个良好的基础,甚至有可能降低整体系统的分类准确率。本文通过总结前人常用方法的优缺点,将特征基因的选择与分类器的集成有机的结合起来,提出了基于多特征的集成分类器方法。其算法思想如下:该方法首先使用不同的特征基因提取算法如相关性分析,Golub方法,t检验方法等对数据进行特征提取,得到样本的多个特征子集。然后通过可重复采样技术,在不同的特征子集中抽取样本形成训练子集。由于训练子集是在不同的特征子集中抽取的,所以具有更大的差异性。而后使用一组神经网络学习这组特定的训练子集,为了保证神经网络不陷入局部最优,训练采用粒子群优化算法(PSO)。最后,基于“Many could be better than all”的选择性集成思想,使用分布估计算法(EDA)选取最优的神经网络分类器进行集成,做出最后的分类判决。为了验证方法的有效性,实验采用了国际通用的基因表达数据集Leukemia、Colon、Ovarian、Lung Cancer进行分类实验。结果表明,使用本文提出的方法比其他方法具有更高的分类准确率和稳定性。

其他文献

自组织神经网络的新算法以及应用

自组织特征映射网络由Teuvo Kohonen教授在20世纪80年代提出,它是模拟脑细胞的这种自组织特性来实现聚类,识别,排序等。自组织特征映射网络同时具有拓扑保持和向量量化的特点

学位

自组织特征映射网络鲁棒性欧式距离Voronoi核方法马氏距离

基于GPRS的中水管网监控管理系统的设计与实现

随着社会的发展,水资源短缺日益严重,节省水资源并实现水资源的回收利用是缓解水资源紧张的必然途径。中水是从污水中处理出来的低质量水,可用于工业冷却循环、绿化喷灌、道

学位

中水远程监控GPRSGIS

Java代码相似性判定方法的研究

成功的大规模系统被称为遗留系统。这些系统具有巨大的商业价值。但是因为它们的体积庞大,并且缺乏文档信息,所以难于维护。其中相似性代码是困扰工程师们的一大问题。在一个

学位

相似性代码Java语言串匹配软件度量程序依赖图

语义信息在指代消解中的应用研究

随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言处理的重点和难点之一,在文本摘要、

学位

指代消解语义信息特征向量语义类别语义角色语义相似度

蜜罐技术在校园网安全机制中的应用研究

随着互联网的发展,网络安全成为了一个急待解决的重要问题。蜜罐技术是一种采用了主动防御的网络安全技术,部署蜜罐的目的就是吸引攻击者来攻击,捕获攻击者在蜜罐系统上的活

学位

校园网网络安全蜜罐技术安全策略

多目标进化算法中解集分布性的研究

多目标优化是优化问题的主要研究领域之一,现实中的优化问题大多具备多目标的特征,并且这些目标往往是相互冲突的。不同于单目标优化问题有唯一的最优解,多目标优化问题的最

学位

多目标优化多目标进化算法分布度保持非均匀分布

工业无线控制网络中的实时性问题研究

近年来,无线网络成为自动化领域中迅速发展的热点之一,也是工业自动化产品未来的新增长点。显而易见,在配置、安装、修改和扩展等方面,无线网络的成本都低于有线网络。工业无

学位

控制介质访问接入点从站优先级

基于J2EE与Struts框架的人口基础信息共享系统设计与实现

人口基础信息的共享建设是社会公民信用体系的一部分,它通过在公安人口信息的基础上整合劳动和社会保障,国税,地税等部门与人口信息相关的资源,实现人口信息的集中管理与充分

学位

J2EEMVCStruts人口基础信息共享系统

无线传感器网络中基于最小跳场的可控拓扑及路由研究

无线传感器网络是由部署在观测环境内的大量微型传感器节点通过无线通信方式自组成网络。这些节点协作地实时监测、感知和采集环境或监测对象的信息,并将信息以自组织单跳或

学位

无线传感器网络非均匀成簇路由协议拓扑控制最小跳数分布式

基于信息熵的DDoS攻击检测技术的研究

当今社会是信息的社会,信息已成为人类的宝贵资源。近年来,Internet以惊人的速度在全球发展,并在人们日常生活中扮演着越来越重要的角色。网络已深入到社会生活的方方面面,在

学位

DosDDos信息熵检测防御

基于多特征的集成分类器在基因表达数据分类中的应用

与本文相关的学术论文