基于互信息和随机森林的混合特征选择算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ynl007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息时代的到来,各行各业产生的数据铺天盖地般涌现,其中高维数据的出现和增长给数据处理带来了极大的挑战.一方面,高维数据容易使数据处理陷入维数灾难的陷阱;另一方面,高维数据中的冗余特征和不相关特征会对数据描述和应用产生干扰.特征选择技术通过对数据进行降维和滤噪,能够为后续的数据处理奠定基础.互信息属于信息准则中的典型度量,它不需要预先知道原始数据的分布,并且原始数据经过变换后仍然保持信息熵的不变性.随机森林可以有效地识别信息特征,并且很好地处理特征与分类器间的关系.本文结合两者的优势,研究基于互信息和随机森林的混合特征选择算法.论文针对Hapfelmeier等提出的随机森林特征选择算法中存在的不足进行改进.改进后的算法基于置换理论框架,使用随机森林进行特征选择.首先分别置换每个特征的数据,每置换一次需要重新构造随机森林并计算特征的重要性值,经过多次置换后会产生一个特征重要性的经验分布.然后使用置换重要性算法对特征重要性的经验分布拟合一个合适的概率分布,再从该概率分布中使用统计方法评价每个特征的p值.如果置换重要性算法找不到合适的概率分布,仍然使用原算法中的p值估计方法.最后根据每个特征的p值筛选特征.通过与七个算法的对比分析表明,改进后的算法在分类精度、泛化能力和运行时间上具有一定的优势.将基于互信息的特征选择算法与上述改进后的算法相结合,提出了一种新的基于互信息和随机森林的混合算法.该混合算法分为两个阶段:首先通过贪婪搜索的方式寻找特征,使用互信息评价特征与类变量间的关系,快速过滤掉一部分冗余特征和不相关特征,从而降低样本空间的维数;其次将第一阶段选出的特征输入到改进后的算法中,基于置换理论框架使用随机森林精选出最终的特征子集.从UCI数据库中选取六个真实数据集,将混合算法与七个现有的算法进行对比分析.实验结果显示,混合算法在分类精度和泛化能力上有一定的提高.
其他文献
目的:比较药物缓释微球动脉化疗栓塞术(Doxorubicin-eluting Beads Transcatheter arterial chemoembolization, DEB-TACE)与传统的碘化油动脉化疗栓塞术(Conventional Transc
目的:探讨消风散加减治疗风热型荨麻疹的临床疗效,为治疗荨麻疹提供更加有效的方法。方法:将来自黑龙江中医药大学附属第一医院皮肤科门诊,符合纳入标准的72例患者,随机分为治
中式英语作为一个常见的二语习得现象出现在不同层次中国英语学习者的英语表达中。由于这种错误常常出现在语义层面,又并非语法和拼写的错误,因而常常不为中国英语学习者所察
本文选取了在词汇史上出现的“之X”类结构的方位词“之前”、“之下”、“之间”作为主要的考察对象,结合词汇化语法化的相关理论和“之X”类方位词的相关研究成果,从现代汉
目的:观察中药熏洗联合窄谱中波紫外线照射治疗寻常型银屑病静止期的临床疗效。方法:选取符合入组标准的寻常型银屑病静止期(血虚证和血瘀证)患者86例,采用随机分组的方法,分为
词汇教学在对外汉语课堂教学中占据着极其重要的地位,它是构成句子的单位,掌握了足够的词汇,才能构成想要表达的句子。但是现在的对外汉语词汇教学并没有得到教师的足够重视,
本文运用文献资料法、访谈与实地考察法、问卷调查法、数理统计法之研究方法,从威海市游泳健身者的特征角度、游泳场馆资源分析角度、商家服务角度以及游泳教练员和救生员构
随着工业化、城镇化加速发展以及全球产业分工的深化,港口城市以其独特的基础资源和通过集聚效应、协同效应以及自增长效应成为全球经济发展的中流砥柱,而港口和城市的良性互
目的:通过临床观察和动物实验,探讨肿瘤化疗置管所致的输液性静脉炎的发病机理,阐述口服康脉Ⅱ号胶囊和湿敷蓬子菜浸出液在治疗肿瘤化疗置管所致的输液性静脉炎的独特优势。方
发展低碳经济是中国实现可持续发展,提高国际竞争力,降低环境成本的内在要求,中国政府在“十二五规划”中明确提出到2020年单位国民生产总值C02排放要比2005年下降40-45%,要