【摘 要】
:
自纠错输出编码(Error Correct Output Codes,ECOC)是一种通用的解决多分类问题的算法框架,其通过集成多个基本二分类器来解决多分类问题,并且可以自动矫正部分预测错误的基本分类器,使得最终预测结果正确。ECOC算法主要包括编码和解码两部分,编码阶段会生成一个编码矩阵,该编码矩阵是ECOC算法的核心,编码矩阵的好坏会直接决定算法的性能,根据编码方式的不同又可以分为数据相关型(
论文部分内容阅读
自纠错输出编码(Error Correct Output Codes,ECOC)是一种通用的解决多分类问题的算法框架,其通过集成多个基本二分类器来解决多分类问题,并且可以自动矫正部分预测错误的基本分类器,使得最终预测结果正确。ECOC算法主要包括编码和解码两部分,编码阶段会生成一个编码矩阵,该编码矩阵是ECOC算法的核心,编码矩阵的好坏会直接决定算法的性能,根据编码方式的不同又可以分为数据相关型(Data-dependent)编码和数据无关型(Data-independent)编码,数据相关的编码方式会根据不同的数据集生成适合其数据分布的编码矩阵,而数据无关的编码则不考虑数据分布情况,其编码长度仅和数据集中类别的数量有关。通常来说数据相关型编码要比数据无关型编码会得到更好的结果。解码阶段会根据每个基分类器的预测结果来决定最终的预测标签。本文提出了两种新的数据相关型的编码方式,分别从不同的角度来适配数据分布,本文的主要工作如下:1.本文对现有的ECOC算法的理论背景和相关研究进行了较为详细的梳理,对部分著名的ECOC算法进行了详细的介绍。2.本文提出了一种使用软编码的ECOC算法,编码矩阵由[-1,+1]之间的连续值组成,而不是传统的{-1,0,+1}离散值。通过使用软编码来表达不同类别的数据对不同簇的倾向程度,从而提高算法对不同数据的适配性。除此之外,该算法中还提出了一种对编码矩阵进行微调的策略,通过对编码矩阵中的元素值进行微调,达到编码矩阵和基分类器更加适配的目的,提高基分类器的预测准确率,从而降低解码阶段的误差。3.本文提出了一种基于两阶段的编码方法,考虑到同一数据集中的不同类别有着不同的可分性,本文使用两阶段编码的方法来对容易区分的类别和难以区分的类别分别进行编码,对于难以区分的类别会使用更长的编码进行区分。4.本文在UCI数据集和Microarray数据集上分别对提出的两种算法进行了验证,并使用Friedman检验和Nemenyi检验对算法的差异性进行检验,从多个方面来说明了新提出算法的有效性。
其他文献
随着计算机视觉技术的不断发展,人脸识别技术成为了当今视觉领域的研究热点。为了防止不法分子恶意伪造或窃取他人的人脸特征攻击人脸识别系统,国内外众多研究者开始对人脸活体检测技术进行研究。人脸活体检测作为人脸识别系统中的重要保障,目前已广泛应用于金融、智能安防、教学考勤以及物业管理等众多领域。当前基于单模态的人脸活体检测技术已经日趋成熟,但是在实际应用中,由于复杂场景中环境多变,单模态的人脸活体检测系统
汞具有很强的生物毒性,环境汞污染严重威胁人类健康,因此汞已被世界卫生组织列为优先控制污染物。九龙江是闽南地区最大的河流,也是闽南地区的母亲河以及厦漳地区重要的水源地,其汞污染状况受到人们的关注。本研究运用稳定汞同位素分析技术结合传统分析方法,以九龙江河口区表层水、表层沉积物、滩涂沉积物为研究对象,探讨了九龙江河口区不同环境中汞的分布特征和污染来源。主要内容和结果如下:(1)从2017年至2019年
雷蒙德·钱德勒开创的硬汉侦探小说是侦探小说史上的伟大事迹。钱德勒自1939年创作伊始至1959年去世,共写作7部长篇小说及数篇短篇小说。1955年,其作品被收入美国经典文学权威《美国文库》。美国文学界普遍将钱德勒视为与海明威、福克纳同等重要的作家,可见其在美国文学史中的地位。第一章主要结合钱德勒个人的创作理论,对比传统侦探小说,分析其硬汉侦探小说的革新。首先,阐明侦探小说的兴起与都市文化的关系。再
背景:动脉粥样硬化(atherosclerosis,AS)的发病率高,造成的急性临床事件严重危害人类健康。其本质是动脉的炎症反应,而细胞粘附分子(cell adhesion molecules,CAMs)贯穿于AS的整个过程,介导炎性细胞的粘附,影响疾病的进展。脂多糖(lipopolysaccharide,LPS)属于革兰氏阴性菌外膜的主要成分,常被用来建立多种炎症模型。其中“二次打击”大鼠炎症模
湍动能耗散率是分子粘性作用下湍流动能转化为内能的速率,可以客观表征湍流的强度,是理解海洋混合的基础。湍流微尺度剖面仪通过测量微尺度流速剪切来估算湍动能耗散率,是目前研究海洋湍流混合最有效的观测工具。基于湍流观测资料与准各向同性湍流的直接数值模拟(DNS)数据,本文对海洋小尺度湍流的统计特性进行了研究。全球海洋多站点湍流观测资料的集成分析表明,湍动能耗散率的概率密度分布明显偏离对数正态分布(Logn
海水淡化与水处理技术的开发对人类的生存以及生态环境的可持续发展至关重要。现阶段已发展成熟的水处理技术包括反渗透法(Reverse Osmosis)、电渗析法(Electrodialysis)、多级闪蒸法(Multi-stage Flash Distillation)等,这些技术在海水淡化路线、技术成本、设备运行能耗等方面均存在缺陷。太阳能海水淡化过程是一种绿色、可持续的脱盐过程,具有能耗低、成本低
海洋微微型蓝藻原绿球藻和聚球藻是低纬度热带亚热带寡营养海域最主要的浮游植物,在群落中占据绝对优势地位。在未来海洋层化加剧导致低纬度寡营养海域浮游植物生长所需营养盐更加受限的背景下,浮游植物的响应将对海洋初级生产力产生重要影响,但是目前关于营养盐供给变化对寡营养海域浮游植物造成的影响尚不明晰。除此之外,气候变化背景下,以微微型蓝藻为优势类群的低纬度热带亚热带寡营养海域浮游植物群落如何响应海洋酸化尚无
惯性导航系统(INS)作为一种自主式导航系统,凭借其自主性强、隐蔽性好、工作环境广等优点,在航空航天、军事武器和民用领域都有着广泛的应用。各个领域日益复杂的需求使得惯性导航系统必须朝着微型化、低能耗、高可靠性的方向发展,微机电系统(MEMS)和冗余技术为此提供了强大动力。本文围绕基于冗余MEMS陀螺仪的惯性导航系统,开展了一系列的研究工作,主要的研究内容包括:首先,讨论MEMS陀螺仪的冗余配置方案
减数分裂是有性生殖所必需的一种特殊的细胞分裂方式,是一个从二倍体的生殖细胞产生单倍体配子(精子和卵子)的过程。在这个过程中,DNA仅复制一次,而染色体连续两次分离。减数分裂同源染色体的精确分裂依赖于减数分裂前期的一些关键事件的有序发生,这些关键事件包括:同源染色体配对、联会复合体(synaptonemal complex,SC)的形成、程序性的DNA双链断裂以及遗传交叉(crossover)的形成
大气干湿沉降是海洋溶解有机碳(DOC)的重要外源之一,近海城市大气沉降有机碳又同时受到陆地与海洋的影响,来源复杂。因此对近海大气沉降有机碳来源、归宿、季节变化以及影响因子的探究有利于理解大气沉降在地球化学循环中的作用。本论文于2018年12月至2019年9月和2018年9月到2019年9月分别对厦门干、湿沉降进行了为期10个月和一年的采样分析,以低分子量有机酸(LMWOAs)作为活性生物标志物,溶