基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究

被引量 : 0次 | 上传用户:adai1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是影响人类健康的主要疾病之一。DNA基因芯片的出现为人类疾病的诊断和防治开辟了全新的途径,基于DNA基因芯片技术的癌症研究己成为生物信息学研究的热点之一。目前基因芯片数据的特征选择主要有filter和wrapper两大类方法,filter方法完全独立于分类器,不能改善所提取基因的分类性能,而且过滤原则未必与类别信息相关,wrapper方法结果依赖于分类器,能获得较高的分类精度,但高分类精度并不能保证结果与疾病有较强的相关性,而基因芯片数据的高维、高噪声的特点更加增加了过拟合的风险。针对这些问题,文中采取将过滤法和缠绕法相结合的策略,首先采用奇异值分解从高维特征中按照与肿瘤类别信息的相关性而非分类精度粗选出部分备选基因,再用基于相对重要性的类随机森林缠绕法精选出目标特征子集,以克服了单一使用缠绕法选择特征时对分类算法的依赖性,避免了过拟合现象的产生,一方面保持了较高分类率,另一方面又保证了选择的基因标志物和肿瘤类别具有较高的相关性。方法上,1)本文引入样本散点图和科尔莫诺夫-斯米尔诺夫检验构成有监督奇异值分解方法,以辨识出含有样本类别信息的特征向量,克服了传统方法按照方差“贡献率”来提取特征向量,从而避免包含重要生物信息的特征向量可能因贡献率低而被“丢弃”。2)本文提出了基于相对重要性的类随机森林决策方法,按照相对重要性来选择关键基因,相对重要性不仅考虑了特征基因的分类精度,还考虑特征基因在整个树中的重要性。为了验证方法,本文对三个公共基因数据集进行分析,与其他经典方法,从分类性能、基因稳定度以及生物学意义等方面对本方法进行了考察和比较。实验结果表明,1)与经典方法相比,本文方法在不同的数据集上所选取的特征基因子集不仅具有较强的分类性能,而且对不同的分类算法有较好的适应性;2)总体上本文方法辨识的基因具有较高的稳定度,说明本文方法挑选的基因对数据扰动相对不敏感,更稳定;3)基因数据库查找和文献检索显示,本文所选取的大部分都具有重要的生物学意义,很多都和相关的癌症疾病有关,因此,本文方法能较好的选取出与疾病关联的关键基因。
其他文献
<正>一名默默无闻的组工干部,用一生的孜孜追求践行了对党的绝对忠诚;一名朴实无华的组工干部,用平凡的点点滴滴树立了廉洁干净的光辉形象;一名恪尽职守的组工干部,用高贵的
期刊
一、沙颍河周口—槐店段水质状况周口市地表水质监测始于1954年。由于当时污染很少,主要进行水质常规分析。随着水质恶化,1978年开始了水质污染项目监测,目前,已发展至48个监测项
<正>在一些日本青少年时髦杂志上面会经常看到"事务所"的招收新人广告。所谓"事务所",就是演艺经纪公司。这些公司往往规模并不大,资本金只有数千万日元左右,但每年的营业额
期刊
为了衡量北京地区成衣服装品牌在营销过程中的品牌形象状况,借助本课题前期研究中构建的"成衣服装品牌形象评价体系",筛选了北京地区极具代表性的4家成衣服装品牌(白领、顺美
目的:探讨影响广州市区更年期妇女保健态度、知识、行为的相关因素。方法:在本市各企业、事业单位进行更年期保健知识讲座,并发放班前班后调查问卷进行统计学处理。结果:班前班后
随着公路建设的不断发展,高等级公路已逐步由大城市附近的平原区向山区延伸。由于山区地形、地质、自然环境等条件复杂多变,给高等级公路建设带来了许多技术问题,尤其是高等
企业陷入财务困境是一个由财务状况正常到逐步恶化的过程,企业财务困境是可预测的,也是值得研究的.国内外对企业财务困境的研究已经形成理论热点.对国内外现有的企业财务困境
<正> 要学好一篇阅读课文,首先当然要花功夫把它的词汇、句型、语法等掌握牢固,但是如果只做到了这一点,就像登长城,花了很大功夫只来到了长城脚下一样,其实并没有登上长城。
综述了国内外聚苯硫醚(PPS)纤维的发展现状,分析了制约我国PPS纤维发展的原因;根据PPS树脂特殊的流变性能,对比了PPS的纺丝技术与普通成纤聚合物熔融纺丝的异同;详细阐述了PP