论文部分内容阅读
肺癌是世界公认的发病率和死亡率较高的恶性肿瘤之一.肺癌在中国的形势则更为严峻,其发病率和死亡率已跃居第一位.其中,肺腺癌(Lung Adenocarcinoma,LUAD)的发病率逐年增高且呈现激增趋势,又因其病灶易转移、患者就诊不及时,往往难以治愈.随着基因检测和基因诊断的兴起,肺腺癌的早期预防和诊疗出现了新的契机.然而,基因的数量成千上万,若对每一位患者的全基因组进行测序,存在效率低和成本高的弊端.若能对基因进行分类,利用同类基因在表达上具有相似性的特点,则可以减少基因检测的工作量.本文以美国国立生物技术信息中心(NCBI)中肺腺癌患者基因数据为研究对象,运用统计方法和机器学习方法构建分类器,对致病关键基因进行分类.在研究过程中,创新性地提出因子分析-SMOTE-KNN/逻辑回归/AdaBoost分类模型,因子分析用于分类和标注,SMOTE采样用于平衡数据,分类算法用于构建多类别分类器,提高了分类效果,为指导临床基因筛选节省经济成本和时间成本提供依据.本文的主要工作如下:(1)对肺腺癌基因数据进行预处理.首先,本文在P<0.001水平下,采用倍数法,选取了 |logFC|>3.5,|]og FC|>2.5和|log FC|>1.5的基因,分别记作数据集Sl,S2和S3.其次,由于数据集中基因数量远大于样本数量,不利于进行因子分析,故通过SMOTE采样提高样本量,使因子分析得以进行.最后,选择极值处理法对数据进行标准化,消除量纲和量级的影响.(2)对三组数据集中基因的类别进行标注.本文采用因子分析的方法,以基因为变量进行分析.根据在公共因子上的载荷高低对基因进行分类和标记,得到带有标注的数据集.(3)比较分类方法的性能.本文利用十折交叉验证对三组数据集划分训练集和测试集,采用分类准确率、宏精确率、宏召回率和宏F1值评价KNN算法、逻辑回归算法、AdaBoost算法的多分类性能.探索数据集大小,KNN算法中近邻数K取值,逻辑回归算法中正则化强度λ取值以及AdaBoost算法中弱分类器数量对分类性能的影响.(4)利用SMOTE采样改善类不平衡带来的影响.本文在比较分类方法性能时发现,在分类准确率尚可接受的情况下,宏精确率、宏召回率和宏F1值极低.由后三者定义分析得知,根据因子分析得到的分类存在类不平衡现象.因此,利用SMOTE采样改善类不平衡带来的影响,构造SMOTE-KNN算法、SMOTE-逻辑回归算法和SMOTE-AdaBoost算法.仍然采用十折交叉验证和四项评价指标,探索数据集大小,K值取值,λ值以及弱分类器数量对分类性能的影响.结果发现四项评价指标均有提高,且分类准确率与其他三项评价指标的差距明显缩小.(5)基于关键基因对肺腺癌样本数据分类.本文在每一类基因中,选择公共因子载荷最高的基因作为关键基因.以关键基因为特征,分别利用KNN算法、逻辑回归算法、AdaBoost算法对肿瘤样本和正常样本进行分类判断.三种算法的分类准确率均超过了 85%,其中KNN算法、逻辑回归算法的准确率更是超过了 90%.结果表明本文取得的关键基因,对于样本识别较为有效.另外,基因MMP1、ENTPD8、RTKN2和STRA6被多次选为关键基因,重要程度较高,在临床基因筛选时可以重点关注.综上,未经SMOTE采样时,KNN算法近邻数K=1、逻辑回归算法中正则化强度λ=0、AdaBoost算法中弱分类器数量为{20,40,60}时,分类准确率和宏F1值达到最优;经过SMOTE采样后,K∈ {4,5,6}、λ ∈ {0,1}、弱分类器数量为{20,50,60}时,分类准确率和宏F1值相较于前者均有大幅提升,结果理想.随着数据集增大,六种算法的MATLAB运行时间均增长;在同一数据集下,结合SMOTE采样后的算法时间均增长,但无论是否经过SMOTE采样,KNN算法运行时间均最短,而AdaBoost算法运行时间均最长.KNN算法适合处理较小的数据集;而对于较大的数据集,AdaBoost算法在准确率和宏F1值上有一定优势.