面向基因表达数据的分类与特征选择方法研究

来源 :中国计量大学 | 被引量 : 2次 | 上传用户:zangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学领域,DNA微阵列技术的出现是一个具有里程碑意义的重大技术突破。随着研究的不断深入,它已被广泛应用于药物研究、基因测序等众多领域,具有极高的应用价值和广阔的发展前景。然而在实际应用中,DNA微阵列技术研究的基因组对象规模越来越大,特征维数也越来越高,最终获得的基因表达数据不仅具有高维小样本的特点,还含有大量和样本分类无关或对样本分类作用很小的冗余基因和噪声基因。基因表达数据的这些特点会提高机器学习的时间及空间复杂度,降低分类精度,最终在疾病诊断等实际应用中会增加成本,降低疾病预测的准确度。因此,为提高基因表达数据的分类精度,本文从两方面着手进行研究:一方面对分类算法进行改进,另一方面通过提出有效的特征选择方法以筛选出关键基因,剔除冗余和噪声基因,降低基因特征维数,提高机器学习效率。研究的主要内容如下:(1)正则极限学习机(RELM)是在极限学习机(ELM)的基础上提出来的,具有简单易用、分类精度较高、泛化能力好等优点。然而RELM的输入层权值、隐含层偏差是随机给定的,会影响RELM的稳定性。另外,RELM为了获得较理想的分类精度,仍需设置较多的隐层节点。针对此问题,通过分析粒子群算法(PSO)的原理,把RELM初始产生的输入层权值、隐含层偏差作为粒子带入PSO进行寻优,提出了一种粒子群改进RELM(PSO-RELM)。在UCI数据集上的仿真实验表明,PSO-RELM相对BP神经网络、支持向量机(SVM)、RELM具有更好的分类精度和更佳的稳定性。(2)提出一种结合互信息最大化(MIM)和自适应遗传算法(AGA)的特征选择方法(MIMAGA-Selection),其中选择ELM作为分类器来计算样本的分类精度。首先根据源数据集中各基因和不同类别的互信息最大化进行分组和筛选,形成一个初选基因子集;然后运用以样本分类精度作为适应度函数的自适应遗传算法对初选基因子集进行寻优,最终得到一个最优基因子集。通过在3个UCI标准数据集上进行的实验表明,该方法能有效剔除冗余基因和噪声基因,显著提高样本分类精度。
其他文献
深空探测集中显示了一个国家的科技发展水平和综合国力,在科学、经济、军事和政治上都有巨大意义。我国制定的空间科学发展“十五”、“十一五”计划,并已开展了包括月球探测
学位
传统的入侵检测研究很少考虑网络用户的意愿和行为规律,对攻击动机缺乏解释。这造成现有的入侵检测部署缺乏针对性,误判和漏判概率非常高,因此有必要引入新的研究方法和理论对攻
聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘
电子政务是各级政府及政府职能部门将其服务和管理的功能通过互联网实现,以为企业及公民提供更好的服务。电子政务系统经历了几十年的历程,由于采用不同的开发语言和平台,导
地籍管理信息系统作为地理信息系统(GIS)与土地管理事务相结合的产物,为土地管理工作提供了快捷有效的信息获取手段和管理方法,通过引入GIS现代化信息技术,能够提高土地管理
移动GSM通信网络优化的主要任务是对网络设备参数进行分析和调整,确保稳定的网络性能和良好的用户感知。随着网络规模的迅速扩大,网络优化工作的难度越来越大,需要测试的路段
虚拟机技术通过对硬件资源进行模拟,实现对硬件资源的虚拟化。这样,采用了虚拟机技术,一台计算机可以提供多个相同的计算机硬件平台,从而能够同时运行多个操作系统并实现它们之间
随着计算机与信息技术的不断发展,生物特征识别技术受到了广泛的关注,指纹因其唯一性和终生不变性成为目前最可靠的生物特征识别技术研究对象之一。尽管目前在此技术上已有许
在当今的信息社会,信息安全已经成为迫切需要解决的问题。数据加密技术是一种主动的信息安全保护措施,为解决信息安全的问题提供了有效的方法。本文所研究的移动可编程数据加
在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越高,其功能也在不断丰富和完善当中,输入自动