随机森林和支持向量机在乳腺癌高维转录组数据中的应用

来源 :河北医科大学 | 被引量 : 2次 | 上传用户:yao_huaxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究是基于随机森林和支持向量机算法处理乳腺癌的基因表达数据,筛选出三阴性乳腺癌和非三阴性乳腺癌的差异表达基因,为临床诊断和新药的研发提供更多的参考靶点。方法:1.数据来源于TCGA乳腺癌的基因表达数据,共989人,每个乳腺癌患者测得60483个基因。2.采用t检验和随机森林两种方法对数据先进行降维处理,然后采用支持向量机、支持向量机递归特征消除法、随机森林三种基因重要性排序方法对两种降维处理后的基因重要性进行排序,排序后的基因分别采用随机森林和支持向量机两种分类器进行变量选择,采用向前变量选择法按变量重要性逐步纳入变量,采用交叉验证,选择对三阴性乳腺癌预测最准确的特征集作为最终筛选出变量的特征子集。3.本研究采用R3.5.1软件进行的数据处理和分析,采用的软件包有randomForest、e1071及sigFeature的主要程序包和caret等基础软件包。结果:1.经过t检验的FDR降维处理后剩余18702个基因。经随机森林,ntree取值为100000,降维处理后剩余6326个基因。2.使用随机森林排序,并继续使用随机森林建模,入选变量个数为8个时,模型各评价指标均达到最优。3.使用随机森林排序,然后使用支持向量机建模,当入选1个变量时,约登指数和召回率达到了最大值,说明ESR1这个基因对三阴性乳腺癌影响很大。经t检验的FDR降维后的模型入选变量为8个时模型整体评价效果最优;经随机森林降维后的模型入选变量为5个时模型整体评价效果最优。4.分别经t检验的FDR和随机森林降维后采用随机森林进行重要性排序的两个模型中前8个基因有6个是相同的,剩余两个不同基因都位于两个模型前列。5.基于支持向量机递归特征消除法进行的基因重要性排序模型,评价指标约登指数最高为0.8271;基于支持向量机w~2进行的基因重要性排序模型,评价指标约登指数最高为0.8392,效果均不及基于随机森林基尼指数下降的基因排序结果。6.经随机森林降维结果各评价指标不及经t检验的FDR降维结果;而预测模型支持向量机的召回率要远远强于随机森林,而随机森林的精确率要强于支持向量机,但整体上用支持向量机分类要强于随机森林。结论:1.基于本研究t检验的FDR降维模型各评价指标优于随机森林降维。2.基于随机森林重要性评分进行的基因重要性排序结果较支持向量机、支持向量机特征递归消除法基因重要性排序结果稳定且预测准确率高。3.用于基因表达数据二分类预测模型时,支持向量机各评价指标优于随机森林。4.针对高维基因表达数据进行变量选择时,我们的研究结果建议使用t检验的FDR降维,用随机森林对变量的重要性进行排序,最后使用支持向量机建立预测模型。本研究按此方法分析,所选基因的文献检索结果显示:大多数与癌症的诊断、转移或者预后不良相关。
其他文献
本文利用1978-2011年我国交通基础设施及国内生产总值的时间序列数据,着重考察了铁路、公路、水运及航空四类交通基础设施与我国产业结构升级之间的关系。短期内,铁路、公路及
本文以麦芽糖、三聚氰胺和甲醛为原料,硼砂为交联剂,在碱条件下,通过三元共聚反应制备出麦芽糖-三聚氰胺-甲醛树脂(Maltose-Melamine-Formaldehyde Resin,简称MMF)木材胶粘剂
以黄酒糟为芝麻香型白酒生产原料,结合培菌糖化工艺,将黄酒糟与曲粉混合,进行堆积培菌糖化,并与芝香粮糟按一定比例混合拌匀;进行高温堆积、入池发酵,将黄酒糟作为一种特殊的
农村小学数学后进生的产生原因有社会、家庭、学校教育、教师,以及学生自身等众多原因,文章对这些成因进行后,提出了相应的转化对策。
文章分析了社会网络型创业经济的构成,提出了资本网络、产业网络、区位网络的定义及特征,给出了社会网络型创业经济的资本网络、产业网络与区位网络融合的三种模式:网络布局
隐士具备出仕为宦的素质 ,却主动疏离政治 ,隐居求志 ,成为具有特定道德价值意义的象征符号。隐士蔑视权威、不事王侯的独立人格 ,安贫乐道、不慕荣利的骨气节操以及高标独立
首次对湖北梁子湖水系污染程度不同(中营养型、中富营养型、富营养型)的4个湖泊的底栖动物群落结构和物种多样性进行了周年研究,结果表明,底栖动物种类数、物种多样性与湖泊
文艺复兴重新发现了世界,也重新发现了人,并带来了政治学的复兴。从马基雅维利开始,政治学研究开始恢复古希腊政治学的理性思考,进入了以人的经验为指导的新时期。在《君主论
氮是引起湖泊水体富营养化的关键营养元素之一.本次工作从贵州两个重要水库(红枫湖和百花湖)采集了未受扰动的沉积物样品柱,分析了分层沉积物样品中的总氮、无机交换性氮和固
批驳了关于中国钢铁市场存在恶性竞争的不正确说法,提出应该从恶性竞争的基本特征、基本表现形式、诱发恶性竞争的根源等方面来分析中国钢铁市场的竞争状况,并论证了中国钢铁市