粗糙集在集成学习中的应用研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:zwb20042002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网、物联网的出现促进了数据量的爆炸式增长,面对体量巨大、类型多样、价值密度低的海量数据,如何通过机器学习进行高效的处理分析成为影响数据拥有者核心竞争力的关键。针对数据的不精确、不完整、高维度、大样本等特点,粗糙集体现出特有的研究价值,其在集成学习中的应用更是促进了并行化计算的工程落地。本文即对粗糙集缺乏与集成学习的广泛结合,并存在离散化较困难、时间复杂度较高、泛化性不足等难题进行研究。首先,论文采用了将邻域粗糙集特征选择和随机森林结合使用的策略,以特征子空间为切入点提高了随机森林中基分类器的分类能力,并在原有子集搜索的基础上加入一定的随机化方法,使得邻域粗糙集生成大量不同的特征候选子集。实验结果表明,多特征候选子集的引入使得系统整体性能进一步提升,并且相比于经验法则所确定的固定规模的随机特征子集更加具有可解释性。在5个数据集上,与7种机器学习方法的对比过程中,所提出的算法在准确率与召回率的调和平均值上最高提升11.2%,并且随着特征维度的增加体现出更好的稳定性。第二,通过分析邻域粗糙集实际应用中邻域半径需要人工选取的困难,以及人工设置超参数带来的庞大的调参工作,提出将聚类算法结合粗糙集进行连续型数值划分,给出邻域或聚类中心数的指导性意见,减少了人工调参与特征评估中属性重要性的时间开销。此外,通过集成特征选择将邻域粗糙集与具体算法解耦,并在子集搜索过程中加入lasso回归降低作为粗糙集核的特征子集的相关性。在与7种常用分类器的结合中体现了较好的稳定性和特征压缩性能。论文的主要贡献和创新有:针对邻域粗糙随机森林改进了随机森林自身的特征子空间生成过程,在高维数据处理时性能有了显著提高,具有一定应用价值;结合聚类的集成特征选择一方面减少了邻域粗糙集超参数选取的重复性劳动,另一方面将邻域粗糙集的应用场景由与随机森林耦合的wrapper-embeded方式改变为适用于更多分类算法的wrapper-filter方式,推广了基于聚类的邻域粗糙集度量和集成特征选择,减少了经验法则的使用。
其他文献
社会的发展和进步使得对电能的依赖越来越大,随着新型用电设备的不断出现,越来越多的传统能源被电能取代,因此电网的稳定性和可靠性是支持社会发展的重要保证。配电网自动化
M公司是一家拥有100多年发展历史的德国家族企业,在跨国企业中,规模不算大,但凭着自身的核心技术壁垒,形成了自己独特的竞争优势。伴随着中国经济进入“新常态”,公司目前在
Toeplitz算子是函数空间中一类重要的算子.在目前的研究中,除了单位圆盘Hardy空间外,高维空间中Toeplitz算子的代数性质还远没有解决.本文主要研究了多重调和Hardy空间中Toeplitz算子的(半)交换子的有限秩问题.第一章首先介绍了函数空间中Toeplitz算子的研究背景,其次是发展历程和现状,然后回顾一些相关概念,最后给出本文的主要内容.第二章首先研究了多圆环上多重调和Hard
社区发现在复杂网络及其应用中一直属于热门的研究课题。随着这些年来复杂网络研究的迅速推进,社区发现算法的研究引起了各领域学者的广泛关注。其相关研究在物理学、社会学
随着人民生活水平的提高,对高品质稻米产品的需求日益增加,高端稻米产品巨大的市场容量,迫切需求稻米加工企业改进大米的加工技术和设备,减少碎米,提高大米品质,开发适宜消费
低温燃烧模式作为一种新技术可以很好地解决柴油机NOx和颗粒物排放较高等问题,并且具有较高的热效率。在灵活的燃料搭配中,作为煤基燃料的甲醇受到很多研究者的关注。本文在
背景颅内动脉瘤在我国人群中具有较高的发病率,瘤体破裂引发颅内出血,导致较高致残及致死率,后期治疗和康复也为家庭及社会带来沉重的负担。如何尽可能早发现、早诊断和早治疗一直是临床关注的重点问题。目前临床上常用的检查方法有经血管造影检查(digital subtraction angiography,DSA)、经全脑血管多层螺旋CT血管造影(multislice spiral CT angiongrap
多聚半乳糖醛酸酶(Polygalacturonase,PG)是一种能催化果胶水解和分解的重要的植物细胞壁降解酶,对植物发育的几乎所有阶段都是必不可少的,大量研究表明PG在果实发育和成熟软化过程中发挥重要作用。前人对PG酶活性与枣果实软化关系进行了一些研究,但关于PG基因的功能未见报道。枣树童期较短,但一般也要2~3年,组培苗可能更长,使得果实发育相关基因功能验证时间增加。FT(FLOWERING
2013年9月7日,习近平主席提出了“一带一路”这一具有丰富内涵的倡议,该倡议能够有效应对当前世界经济格局变化所带来的影响,也是能够推动多个发展中国家共同进步,协同发展经
RNA编辑是一种转录后加工的方式,主要包括尿嘧啶的插入或删除以及单碱基的替换。其中,单碱基的替换主要包括胞嘧啶到尿嘧啶的转换以及腺嘌呤脱氨基生成黄素腺嘌呤的过程。在开花植物中,细胞器内发生的RNA编辑主要是指转录本上的胞嘧啶被编辑后生成尿嘧啶这一反应。细胞器中编辑效率的下降或丢失对于植物本身的生长发育有着重要影响,有的位点上的编辑缺失甚至具有植株致死效应。基因编辑技术近年来发展迅速,在多个物种的基