【摘 要】
:
传统的基因选择方法往往没有考虑基因表达谱数据中蕴含的先验信息导致选出的基因还存在一定程度上的冗余,进一步影响机器学习算法的分类精度。为了选出最小冗余度的信息基因子
论文部分内容阅读
传统的基因选择方法往往没有考虑基因表达谱数据中蕴含的先验信息导致选出的基因还存在一定程度上的冗余,进一步影响机器学习算法的分类精度。为了选出最小冗余度的信息基因子集,本文利用聚类方法对备选基因进行初选,然后利用粒子群优化算法(PSO)结合极端学习机(ELM)对初选基因进行筛选,该类方法能有效降低选出基因子集的冗余度并提高基因表达谱数据的分类准确率。本文主要工作如下:
1)提出了一种基于K均值聚类(KMeans)、PSO和ELM的基因选择方法(KMeans-PSO-ELM)。根据聚类算法能够将具有相似功能特点的一组基因聚在一起,先对基因表达谱数据进行聚类,再利用粒子群优化算法分析聚类簇中的基因子集的分类能力,剔除分类性能较低的簇,对簇进行裁剪,实现第一步的去冗余。最后再将剩余各个簇作为备选基因库并用粒子群优化算法做进一步基因选择,在三个基因表达谱数据集上实验结果表明,该方法能够有效选出较少的信息基因并能提高表达谱数据的分类准确率。
2)针对裁剪后,聚类簇中仍存在较多冗余基因这一问题,提出了低冗余的KMeans-PSO-ELM方法。该方法采用最大相关最小冗余算法对高贡献的簇进行进一步去冗余,选择各聚类簇中关键基因,组成一个备选基因库,最后采用粒子群优化算法实现最佳基因子集的选择。该方法充分考虑了基因与簇、基因与类别相关程度和基因间的冗余程度在基因选择中的不同作用,挖掘基因表达谱数据中有效基因信息。实验结果表明,相比其它经典方法和KMeans-PSO-ELM方法,该方法能够选出更低冗余的信息基因子集,并进一步提高基因表达谱数据的分类准确率。
其他文献
随着国家金卡工程的不断推进,国内各大商业银行大量推出金融IC卡。巨大的智能卡市场更加速了与之相配套的读写器的发展。金融IC卡应用场景的多样化和支付方式的改变,对读卡终端
水泥是我国的基础原材料,用量极大。长期以来,水泥的生产主要是由操作人员凭借经验,手工给定窑头窑尾喂煤量,控制分解炉和回转窑的温度。由于人工操作的滞后性和误操性,导致
数据驱动控制即控制器设计不包含受控对象数学模型信息,仅利用对象的输入输出信息。无模型自适应控制作为一种先进的数据驱动控制理论,其在很多复杂非线性系统中的应用引起了
目前,对目标跟踪的研究已经实现了静态背景下特定目标的跟踪。但在实际环境中,由于图像噪声的干扰,背景的变化等因素使得目标的检测并不是很理想,进而影响跟踪性能。另外,在
由于列车运行速度的大幅提高,列车通信网络结构的逐渐复杂化,新型大容量业务的不断增加,现有列车网络应用的现场总线已趋于无法满足列车通信网络对于带宽,实时性、可靠性等重
在实际生产过程中,多变量系统是广泛存在的,而内模控制是一种结构简单、调节参数少、具有较强鲁棒性的先进控制算法,在工程中应用较为广泛,因而,研究多变量系统的内模控制具有重要
近年来,随着新型能源发电技术的快速发展,大量光伏发电和风力发电以及电动车等设备接入到配电网。当越来越多的新型分布式电源通过逆变器接入配电网时,传统的配电网结构已经发生改变,原有的网-荷二元结构配电网正逐渐向源-网-荷三元结构的新型主动配电网转变,而分布式电源接入所带来的电压闪变、电能质量下降和谐波振荡使得主动配电网的稳定性面临着更加严峻的考验。由于并网逆变器与电网之间的阻抗匹配问题关系到整个系统的
随着工业生产过程越来越大型化和复杂化,操作员不得不面对海量的数据信息和复杂多变的现场工况,系统监控任务非常繁重。而目前工控人机监控界面普遍存在的交互性能不足、缺乏智
小麦是我国主要粮食作物之一,其品质的好坏是老百姓非常关注的问题,许多粮食加工生产企业、科研院所、检测机构都希望可以快速、准确地对小麦品质做出检测。因此,如何高效快速地对小麦的品质做出分类识别成为科研人员研究的重点课题。国外发达国家在小麦产业方面对小麦品质的区划和分类日趋完善,但我国农业产业受装备和技术的限制,整体技术水平、商品化处理率还比较低,相关研究较少,尤其利用近红外光谱技术进行小麦品质分类还