基于乳腺癌基因表达数据的特征选择算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:ZHIWEINIU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着发病率和死亡率的持续升高,癌症已经成为影响人类健康的重要因素之一。乳腺癌作为女性疾病中最常见的恶性肿瘤,严重危害着女性的健康。在目前的医疗设备和医学技术背景下,早期诊断和早期治疗成为治疗乳腺癌的关键手段。随着机器学习技术的不断发展,机器学习算法能够以更简单、更有效的方式检测出患癌症的风险,从而达到降低癌症发病率的目的。依托机器学习的背景,基因检测手段也在不断地发展。肿瘤的产生和发展与基因密切相关,将基因表达数据用于乳腺癌的早期诊断对乳腺癌的发现和识别具有重要的意义。使用机器学习相关算法对基因表达数据进行特征选择及分类来预测癌症发病情况,已成为癌症分类领域的热点问题。基因表达数据具有高维度的特点,然而高维度特征集合中包含着大量与癌症无关的数据。因此需要对其使用特征选择方法,筛选出与乳腺癌有关的特征基因集合。传统的特征选择方法,如卡方检验、决策树和信息增益等,通常存在不能有效去除特征冗余、时间复杂度高和过拟合等缺点。因此,如何选用合适的特征选择方法成为本文研究的重点问题。本文在国内外学者对乳腺癌特征基因选择算法的研究基础上,提出了三种新的基于机器学习的特征选择算法Ave-mRMR、RFFS-GS和SVM-RFE-PO算法。首先通过使用上述三种特征选择方法筛选出与乳腺癌有关的特征基因子集,再将选择出的最佳特征子集分别用于支持向量机分类器和Bootstrap-SVM集成分类器进行乳腺癌分类,从而得到更有效的特征选择算法。本文主要研究工作包括以下四个方面:(1)在传统的特征选择算法mRMR算法的基础上,提出了一种引入互信息标准化的Ave-mRMR算法。该算法在去除冗余特征的同时保证了特征与类别间的最大相关性,并且平衡了特征间的相关性和冗余性。本文在DNA微阵列数据集和RNA-seq基因表达数据集上分别采用上述两种特征选择算法选择特征基因,并使用选择出的最佳特征基因子集进行乳腺癌分类。实验结果表明,改进后的特征选择算法Ave-mRMR能够更准确地选择出与乳腺癌相关的基因。(2)在基于随机森林的特征选择算法RFFS的研究基础上,提出了一种基于参数优化的RFFS-GS算法模型。该模型将网格搜索算法(GS)应用到RFFS算法的参数寻优过程中,先使用网格搜索算法进行参数寻优,然后将得到的最优参数值应用到RFFS算法中随机森林的构建过程,最终得到一种更精确、更有效的特征选择算法RFFS-GS。本实验通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述两种特征选择算法选择特征基因,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。其结果表明,改进后的RFFS-GS算法能够进行更有效的特征基因选择。(3)在基于支持向量机的递归特征消除算法SVM-RFE的研究基础上,提出了一种基于参数优化的特征选择方法SVM-RFE-PO,即基于支持向量机的递归特征消除和参数优化算法。通过应用网格搜索算法(GS)、粒子群算法(PSO)和遗传算法(GA)搜索特征选择过程中的最优参数值,提出了三种新的特征选择方法:基于支持向量机的递归特征消除和网格搜索寻优算法(SVM-RFE-GS)、基于支持向量机的递归特征消除和粒子群寻优算法(SVM-RFE-PSO)和基于支持向量机的递归特征消除和遗传寻优算法(SVM-RFE-GA),本文将上述三种算法统称为SVM-RFE-PO算法。本实验首先通过在DNA微阵列数据集和RNA-seq基因表达数据集上使用上述四种特征选择算法进行特征基因的选择,然后分别使用得到的最佳特征基因子集进行乳腺癌分类。实验结果表明,SVM-RFE-PSO算法具有更高效的特征基因选择性能。(4)提出了一种基于Bagging算法的Bootstrap-SVM集成分类器模型。该模型主要通过Bootstrap采样方法获取训练集的不同子集,通过训练集的差异性获得具有差异性的基分类器。然后采用一定的组合策略将训练后产生的若干个弱分类器集成为一个强分类器Bootstrap-SVM。实验表明,集成分类器Bootstrap-SVM的分类准确率要高于单分类器SVM的准确率。本文基于不同的参数优化方法对现有的特征选择算法进行了改进,针对不同特征选择模型所得到的特征子集进行分类实验后发现,改进后的特征选择算法明显具有更高效的特征选择能力。因此,对特征选择算法进行参数优化是一个非常有意义的课题。
其他文献
目的 探讨膳食因素、腰围(waist circumference,WC)和腰围身高比(waist-to-height ratio,WHtR)与血脂异常的关系。方法 抽样调查和膳食频数问卷法相结合,采用偏相关分析、t检
2017年新修订的高中地理课程标准通过构建以地理学科核心素养为主导的地理课程,创新培育地理学科核心素养的学习方式,建立基于地理学科核心素养发展的学习评价体系,达到培养学生具备地理学科核心素养的基本理念,以此落实“立德树人”的根本任务。地理学一个突出的特点是综合性强。面对复杂的地理环境,学生认识、解释地理过程,分析地理环境特点,总结地理规律都需要综合思维能力。国外对核心素养的概念内涵虽进行了界定,但
作为一名高中生,在中学物理课程的学习过程中,动量守恒定律是我们学习的一个重要的知识点,也是很多同学都十分困扰的一个难点。本文结合我在学习过程中的理解在这篇文章里面
6xxx系铝合金因为具有低密度、高比强度和较好的耐腐蚀性,被广泛应用于航空航天、汽车制造等领域。随着对材料性能要求的提高,人们开始探索新的材料处理方式,以期获得良好的
医联体的理念和实践源于美国,近年来国务院、卫计委等相继发文推进分级诊疗、双向转诊的落实,为医联体发展提供了有利条件。泰州市中医院牵头成立"泰州市中医医疗联合体",并
<正>2013年2月18日,在一场总统亲自见证的签约仪式上,巴基斯坦高调向世界宣布中国公司正式接过瓜达尔港的经营权。这一举动在利益交织的各方眼中的解读完全不同。巴方憧憬着
随着矿业工程对矿产需求量的不断提高,由选矿产生的铁尾矿砂越来越多,铁尾矿砂的综合利用成为一个非常迫切的课题;而墙体抹灰砂浆里面的普通砂越来越少,由于盗采河沙、山砂使
作为少数族群媒体,华文新媒体具有华人强化身份认同、确定华人与其他族群边界的作用。这种圈层内的传播形态,赋予了华文新媒体与当地主流媒体不同的传播特征,即在华人社会中
2008深圳玩具展暨华南国际玩具礼品工业展将于2008年1月11日至13日举办,展会主办方《玩具世界》杂志社、深圳市玩具行业协会、东莞市玩具协会、广州玩具和礼品行业协会10月24
a.测电笔为什么能判别火线和零线?在正常情况下火线和零线间有220V的电压,而零线和大地间没有电压,当人站在地上用测电笔的笔尖接触火线时,相当于在人体和测电笔之间加了220V的电压,有电