论文部分内容阅读
随着人类获取信息能力的飞速发展,机器学习算法在科研和工程的各个领域得到了广泛的应用,涉及到化工生产统计过程控制、考古学的文本识别、社会和刑侦领域的指纹和图像识别以及生物医学领域的基因组信息研究等。面对日益增加的大数据,迫切需要高效和高准确率等综合性能较好的变量选择方法,以删除信噪比低和冗余变量的干扰,提高机器学习算法在模式识别领域的精度和效率。我们以非小细胞肺癌(non-small cell lung cancer,NSCLC)亚型的组织学和人类细胞中的snoRNAs的识别为背景,探讨不同的变量选择方法来提高分类精度。随着生物信息技术高速发展,已经运用高通量技术得到大量的生物医学实验数据,如何利用机器学习算法来研究生物数据,解决生物模式识别问题是目前的当务之急。非小细胞肺癌子类主要是肺腺癌(lung adenocarcinoma,ADC,58.8%)和鳞状细胞癌(squamous cell carcinoma,SCC,31.2%),识别非小细胞肺癌子类组织学分类的特征基因对非小细胞肺癌的机理分析和治疗方案选择极其重要;为了研究ADC与SCC各种不同特性的关键机理,我们联合弹性网络、最小二乘和贝叶斯分类器等算法基于TCGA数据库中三种数据(基因表达数据、甲基化数据和拷贝变异数据)建立分类器识别特征基因集。对于snoRNAs(small nucleolar RNA)来说,识别snoRNAs对了解snoRNAs和其他RNA等生物生命活动有着重要的意义。首先利用多种特征提取算法从有限的基因序列中提取尽可能多的信息,之后利用弹性网络等变量选择算法选取高信息含量特征进行模式识别。与已有的研究结果比较表明,本文中的方法无论在速度和精度上都具有很大的优势。