肺腺癌基因分类分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:wcd_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是世界公认的发病率和死亡率较高的恶性肿瘤之一.肺癌在中国的形势则更为严峻,其发病率和死亡率已跃居第一位.其中,肺腺癌(Lung Adenocarcinoma,LUAD)的发病率逐年增高且呈现激增趋势,又因其病灶易转移、患者就诊不及时,往往难以治愈.随着基因检测和基因诊断的兴起,肺腺癌的早期预防和诊疗出现了新的契机.然而,基因的数量成千上万,若对每一位患者的全基因组进行测序,存在效率低和成本高的弊端.若能对基因进行分类,利用同类基因在表达上具有相似性的特点,则可以减少基因检测的工作量.本文以美国国立生物技术信息中心(NCBI)中肺腺癌患者基因数据为研究对象,运用统计方法和机器学习方法构建分类器,对致病关键基因进行分类.在研究过程中,创新性地提出因子分析-SMOTE-KNN/逻辑回归/AdaBoost分类模型,因子分析用于分类和标注,SMOTE采样用于平衡数据,分类算法用于构建多类别分类器,提高了分类效果,为指导临床基因筛选节省经济成本和时间成本提供依据.本文的主要工作如下:(1)对肺腺癌基因数据进行预处理.首先,本文在P<0.001水平下,采用倍数法,选取了 |logFC|>3.5,|]og FC|>2.5和|log FC|>1.5的基因,分别记作数据集Sl,S2和S3.其次,由于数据集中基因数量远大于样本数量,不利于进行因子分析,故通过SMOTE采样提高样本量,使因子分析得以进行.最后,选择极值处理法对数据进行标准化,消除量纲和量级的影响.(2)对三组数据集中基因的类别进行标注.本文采用因子分析的方法,以基因为变量进行分析.根据在公共因子上的载荷高低对基因进行分类和标记,得到带有标注的数据集.(3)比较分类方法的性能.本文利用十折交叉验证对三组数据集划分训练集和测试集,采用分类准确率、宏精确率、宏召回率和宏F1值评价KNN算法、逻辑回归算法、AdaBoost算法的多分类性能.探索数据集大小,KNN算法中近邻数K取值,逻辑回归算法中正则化强度λ取值以及AdaBoost算法中弱分类器数量对分类性能的影响.(4)利用SMOTE采样改善类不平衡带来的影响.本文在比较分类方法性能时发现,在分类准确率尚可接受的情况下,宏精确率、宏召回率和宏F1值极低.由后三者定义分析得知,根据因子分析得到的分类存在类不平衡现象.因此,利用SMOTE采样改善类不平衡带来的影响,构造SMOTE-KNN算法、SMOTE-逻辑回归算法和SMOTE-AdaBoost算法.仍然采用十折交叉验证和四项评价指标,探索数据集大小,K值取值,λ值以及弱分类器数量对分类性能的影响.结果发现四项评价指标均有提高,且分类准确率与其他三项评价指标的差距明显缩小.(5)基于关键基因对肺腺癌样本数据分类.本文在每一类基因中,选择公共因子载荷最高的基因作为关键基因.以关键基因为特征,分别利用KNN算法、逻辑回归算法、AdaBoost算法对肿瘤样本和正常样本进行分类判断.三种算法的分类准确率均超过了 85%,其中KNN算法、逻辑回归算法的准确率更是超过了 90%.结果表明本文取得的关键基因,对于样本识别较为有效.另外,基因MMP1、ENTPD8、RTKN2和STRA6被多次选为关键基因,重要程度较高,在临床基因筛选时可以重点关注.综上,未经SMOTE采样时,KNN算法近邻数K=1、逻辑回归算法中正则化强度λ=0、AdaBoost算法中弱分类器数量为{20,40,60}时,分类准确率和宏F1值达到最优;经过SMOTE采样后,K∈ {4,5,6}、λ ∈ {0,1}、弱分类器数量为{20,50,60}时,分类准确率和宏F1值相较于前者均有大幅提升,结果理想.随着数据集增大,六种算法的MATLAB运行时间均增长;在同一数据集下,结合SMOTE采样后的算法时间均增长,但无论是否经过SMOTE采样,KNN算法运行时间均最短,而AdaBoost算法运行时间均最长.KNN算法适合处理较小的数据集;而对于较大的数据集,AdaBoost算法在准确率和宏F1值上有一定优势.
其他文献
旋转机械作为最常见的动力源在当今社会使用范围越来越广,其中轴承-转子系统作为旋转机械的重要组成部件,对旋转机械健康服役起着举足轻重的作用。滚动轴承作为重要零部件在
随着汽车行业的快速发展,与汽车息息相关的汽车零部件需求也呈现出指数级的增长。精密检测是影响零部件质量的关键因素。当前,国内对车间自动化检测终端研究较少,特别是低成
探索浩瀚宇宙是人类不懈追求的航天梦,月球是地球唯一的天然卫星,而火星具有较大的太空移民潜力。外星基地能够为人类宇宙探索提供关键支撑平台,然而依赖地球资源进行大规模
我国是全球发展最快的国家,为全球经济的发展做出了不可估量的贡献。随着全球化以及城市化速度的加快,石油的需求量越来越大了,而且中国现在处于由制造型国家向着创新型国家
本研究以福建金线莲为材料,对金线莲菌根菌和茎腐病致病菌的分离和鉴定、菌-苗共生体系的建立、菌根菌与金线莲共生体系的显微观察、菌根菌对金线莲抗病性和生长的影响以及金
随着污水排放标准的提高,生物膜技术和好氧颗粒污泥技术因其致密的物理结构、高浓度的生物量、无需污泥回流设备以及有机负荷承载能力强等优点,受到了广泛的关注。处理系统中
随着互联网的快速发展和日渐流行,网页已经成为人们获取信息的重要来源。网页在给我们提供有用信息的同时,也充斥着各种商业广告,这些广告可能占用系统资源,影响网页内容展示
象山港产业多元化明显,海洋资源丰富,具有潮差大、湾口小、港深等优越的自然条件以及较高的开发利用价值和发展前景。近年来,随着沿港经济的迅猛发展,该区域工业废水、生活污
韧性概念引入城市规划学科后,为“城市病”的解决带来了更多的方案,社区作为城市最为基础且关键的部分,其韧性强度的高低往往决定了城市的韧性高低。而目前关于韧性的研究大
二维过渡金属碳化物MXene是一类新型的二维(2D)材料,因为其优异的亲水性、柔韧性与导电性已在储能领域引起了广泛的研究。但是,MXene的易重新堆叠和较差的稳定性严重影响了它