分类中的变量选择方法及应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liuling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息大爆炸时代的到来,信息量在不断的呈几何分布地增长。但是,在实际问题的解决当中,由于庞大的信息量,可能会造成重要信息被众多次要的信息所掩埋,造成对具体问题的错误认识以及理解,因此这些庞大的信息量就需要被处理,找出主要的信息,来构建具体的模型对具体问题进行分析理解。而这一过程,也就是针对具体问题进行变量选择的过程。变量选择会有利于具体问题的研究,而对于在统计学中有深远意义的分类问题,更需要在分类前对变量进行选择。本文采用了UCI数据集中的威斯康辛州的乳腺癌数据以及兰州2014.1-2015.3一年的空气监测数据进行研究,找出这两个问题中的主要影响变量。目前最前沿的变量选择方法,都是利用变量系数的惩罚似然函数,并解出其最优参数估计值,即实现变量系数的压缩,以实现变量选择,而本文则是从测量误差入手,认为观测值是有测量误差的,构建关于测量精度的似然函数,再利用Lasso方法中通过解优化问题,实现变量系数的压缩的原理,将观测值的测量精度进行压缩,而其中为零的测量精度所对应的变量的测量误差方差无穷大,从而对应变量的误差波动较大,也就使得该变量在模型中失去了价值,被选出模型,从而实现变量选择。本文特别的是在非参数分类中来用此新的变量选择方法,而且在前一个实例中与现有的变量选择方法进行比较,发现两种方法下的变量构建的分类器,新方法下的分类器效果更优,即分类误差更小。而新方法在兰州空气质量数据中的应用,也进一步体现出了新方法的优越性,很清晰地给出了兰州去年空气中的主要污染物。
其他文献
<正>建设法治经济要求法治政府与法治市场、法治社会的同步推进。惟其如此,才能建立起与现代国家治理体系相适应的社会主义市场经济新体制。被称为依法治国"升级版"的《中共
既往认为脾脏是较少发生肿瘤的网状内皮系统器官,脾肿瘤多无特征性影像表现,再加之临床较为罕见,定性诊断相当困难。近年来随着影像技术的进步,特别是超声CT核磁共振技术的日
<正>制定"互联网+"行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。国务
目前,乡村振兴和农村产业融合是倍受关注的话题,通过研究发现湖南农旅产业融合有市场推动、政策刺激、技术进步和企业发展需要等动因,以及"植物+旅游"和"动物+旅游"2个融合路
<正>"导学案"就是指将预设的学案作为依托,教师利用课堂教学进行引导,学生借助学案自主探究学习,从而完成课程标准规定的教学目标任务的课堂教学过程。"导学案"作为引导学生
分析了支队级消防指挥中心119接处警系统功能和应用现状,结合灭火救援实践,探讨了如何进一步完善系统功能,实现灾害及救援信息实时向便携移动终端传送,为现场指挥员提供更高
近年来,在人口数量增长和经济迅速发展的双重压力下,农村的环境污染状况愈加严重,尤其是固体废物污染问题,已经严重影响了农村居民的生产和生活,对此,国家给予了充分重视。为改善农村环境,中央从2017年开始先后拨款近70亿元,在2.8万个村庄中开展综合治理工作;除加大财政投入外,我国不断完善环境立法,促进环境执法,加强环境司法,为农村环境治理工作提供了良好的法律环境。在财政政策与法律制度的双重引导下,我
丝绸之路古道上的新疆麦盖提县正是塔克拉玛干大沙漠向南扩张的必经之地,全县面积1.52万平方公里,沙漠占1.37万平方公里。到新中国成立时,沙丘已覆盖到县城近郊,麦盖提成为一
电子商务已成为世界各国农产品出口的重要方式,广东农产品出口企业、种养专业户从上世纪90年代中期以来,已开展网上出口,但效果远示未达到预期。本文深入分析网站建设、推广
由于我国社会对技术人才的迫切需求,职业高中应该担负起为社会输送人才的重担,而职业高中计算机教学质量的提高势在必行,因此,职业高中计算机教师应该努力探索,对教学方法进