机器学习算法中变量选择方法及其在模式识别中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:yzqp178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类获取信息能力的飞速发展,机器学习算法在科研和工程的各个领域得到了广泛的应用,涉及到化工生产统计过程控制、考古学的文本识别、社会和刑侦领域的指纹和图像识别以及生物医学领域的基因组信息研究等。面对日益增加的大数据,迫切需要高效和高准确率等综合性能较好的变量选择方法,以删除信噪比低和冗余变量的干扰,提高机器学习算法在模式识别领域的精度和效率。我们以非小细胞肺癌(non-small cell lung cancer,NSCLC)亚型的组织学和人类细胞中的snoRNAs的识别为背景,探讨不同的变量选择方法来提高分类精度。随着生物信息技术高速发展,已经运用高通量技术得到大量的生物医学实验数据,如何利用机器学习算法来研究生物数据,解决生物模式识别问题是目前的当务之急。非小细胞肺癌子类主要是肺腺癌(lung adenocarcinoma,ADC,58.8%)和鳞状细胞癌(squamous cell carcinoma,SCC,31.2%),识别非小细胞肺癌子类组织学分类的特征基因对非小细胞肺癌的机理分析和治疗方案选择极其重要;为了研究ADC与SCC各种不同特性的关键机理,我们联合弹性网络、最小二乘和贝叶斯分类器等算法基于TCGA数据库中三种数据(基因表达数据、甲基化数据和拷贝变异数据)建立分类器识别特征基因集。对于snoRNAs(small nucleolar RNA)来说,识别snoRNAs对了解snoRNAs和其他RNA等生物生命活动有着重要的意义。首先利用多种特征提取算法从有限的基因序列中提取尽可能多的信息,之后利用弹性网络等变量选择算法选取高信息含量特征进行模式识别。与已有的研究结果比较表明,本文中的方法无论在速度和精度上都具有很大的优势。
其他文献
思想政治理论课是高校德育的主渠道和主阵地。对高校思想政治理论课德育功能的科学定位具有重要的现实意义。分析了高校思想政治理论课德育功能期望中的泛化与现实中的窄化之
<正>熟语是现代汉语词汇中极富生命力的一部分,惯用语属于熟语.惯用语是口头语中短小而定型的习惯用语,惯用语的特点就是具有极强的比喻性,用比喻的方法来表示意义,简明生动,
以炎陵县为例,对区域内耕地质量进行动态监测,研究建立耕地质量监测体系,逐步形成区域内耕地质量监测网络,为耕地整治措施完善、农用地分等成果全面更新等方面提供参考依据。
目的:为了探讨支气管哮喘患儿治疗前后血清SOD、VIP、TNF-α和Lep水平变化的临床意义。方法:放射免疫分析和酶免疫分析测定了87例支气管哮喘患儿和60例正常儿的血清SOD、VIP
运用文献资料、社会学调查等研究方法,对福建省中小学体育场馆向社会开放现状进行调查,结果表明:福建省中小学试点学校体育场馆向社会开放至今,达到了政府预期的进程,也深受
目的:本文旨在探索两种常用的灭菌方法(Co60辐照灭菌和EO灭菌)对聚乳酸材料本身性能的影响。方法:采用测试和对比聚乳酸材料灭菌前后的抗压强度的方法评价不同灭菌方法对材料
产学研网络具有小世界网络的特征,其网络结构的优化有利于促进产学研的合作创新。本文利用小世界网络模型,重点分析了产学研的网络结构特征,并且针对产学研小世界网络特征,提
目的:应用激光捕获显微切割(laser capture microdissection,LCM)联合基于液相色谱串联质谱的非标记定量蛋白质组学技术,对胃低分化腺癌组织及配对正常胃粘膜组织进行蛋白定
文史互证是我国文学研究的一种重要方法。它存在的历史悠久,经陈寅恪的完善得以成熟。本文分为两个部分,第一部分是对文史互证方法的根源追溯,第二部分则是以《元白诗笺证稿