面向实例的分类性能评估与可信任分类器研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wqkabc0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习和数据挖掘领域的重要方法之一。现有的分类性能评估方法如误分率、召回率等通常将实例整体作为统计量,以评价分类器的整体性能。但在最终的评估结果中,忽视了每个实例本身的特性。本文中的“实例”指的是数据集中的一个样本数据。实际上,有些应用场景更看重分类器对一个待分类事件的分类能力,而不是针对大量已发生事件的统计度量。因此,有必要从单个事件(实例)的角度出发来评估分类器的性能。本文从实例分类难度的角度出发构建面向实例的分类器评价方法和理论,旨在形成“好”分类器(可信任分类器)的评价标准,并以新的模型评估思想为导向研究可信任分类器的构建理论与方法。具体内容如下:1.面向实例的分类性能度量方法性能评估在分类领域中具有重要意义。现有评估方法都是从分类器角度出发的具有某种统计意义的度量,忽略了每个实例本身的特性。本文从“用实例数据来评价分类器”的角度提出一个“好”分类器的标准。首先,从统计学角度提出一个实例本身的固有属性,即实例分类难度。然后,基于实例分类难度提出了一种面向实例的分类性能评价指标,称为可信度(Degree of Credibility,Cr)。它是各个实例对分类器信任程度在平均意义上的度量。Cr符合自然认知规律,即简单实例的误分概率越低,分类器的可信度就越高。此外,基于Cr提出了可接受分类器的概念,用于判断所训练模型及其参数集在当前分类技术条件下是否处于领先水平。实验表明,Cr能有效度量分类器的可信程度,是传统分类器评价体系的良好补充,而可接受分类器也有利于模型选择和训练。2.基于实例分类难度的渐进式学习模型在分类领域中,大多数分类器更加关注于正确分类相对较“难”的实例以获得更高的准确率。然而,这些“难”实例很可能是难以学习的异常值或噪声。过分关注这类实例会使分类器感到“困惑”,从而出现过拟合问题。由此可见,实例的难度信息对提高分类器泛化性能和可信度至关重要。然而,现有分类器几乎忽略了这一重要信息。为此,在集成学习框架下研究了实例分类难度对基分类器的影响,形成了一个由易而难的学习过程,从而得到一种新的基于实例分类难度的渐进式学习算法(Boosting with Instance Difficulty Invariance,BIDI)。该算法符合自然认知规律,即在分类难度较小的实例上的误分率应低于在分类难度较大的实例上的误分率。实验表明,BIDI算法在疾病诊断和信用卡欺诈检测等分类任务中具有出色的泛化性能和可信度。3.基于实例分类难度的可信任分类模型通常,传统的分类算法都平等地对待不同实例。例如,大多数决策树算法都假设数据集中所有实例具有相同的置信度,因此对所有训练实例采用相同的生成和剪枝策略。然而,同一数据集中置信度较高的实例通常比置信度较低的实例更有用。而支持向量机(Support Vector Machine,SVM)算法也包含隐含假设,即不同类型的错误所产生的代价相同。但是,一些实际应用如癌症诊断等通常具有“实例误分代价不相同”的特性。因此,在训练决策树和SVM分类模型时应根据实例本身的特性区别对待不同实例。本文基于实例分类难度的特性,分别研究实例置信度对分类回归树(Classification and Regression Tree,CART)以及实例误分代价对SVM算法分类性能的影响和意义,并分别提出了CCART算法和OCS-SVM(Objective-Cost-Sensitive SVM)算法。实验表明,CCART和OCS-SVM算法均有效避免了过拟合,并显著提高了泛化精度和可信度。4.实例分类难度的近似计算规则实例分类难度与现阶段的分类技术发展水平相关。由于实例的难度值不是显式的,而是蕴藏于数据分布之中,所以实例分类难度的计算代价较大。为增强实用性,有必要降低实例分类难度的计算开销。而计算实例近似难度的方法不唯一,需要根据具体的数据分布来确定相应的解决方案。由此引出一个新的研究方向——计算实例分类的近似难度。本文提出了两种低成本的实例近似难度计算规则,以代替实例分类难度。实验表明,这两种近似难度计算方法能够在一定程度上表达实例分类难度的信息,同时大大提高难度值的计算效率。
其他文献
近年来,随着数字信息技术的普及和迅速发展,越来越多的企业通过创建虚拟品牌社区的方式与顾客建立社交联系,吸引顾客积极参与企业产品设计、新产品开发以及产品反馈等创新活动,实现企业与顾客进行价值共创的战略目标。尽管顾客参与价值共创能够使企业从虚拟品牌社区中受益,但由于互联网的匿名性、弱控制性和无限扩散性等特征,企业虚拟品牌社区缺乏统一行为规范,企业也难以对社区内的活动进行实时监督与控制,因此企业虚拟品牌
全地面起重机是起重机中的高端产品,技术复杂、安全性和可靠性要求高。全地面起重机优化与控制技术的研究对起重机全系列产品乃至工程机械行业都具有一定前瞻性和启发性。论文对单缸插销式伸缩路径优化算法和PID参数自适应整定与控制技术进行了研究,并将它们应用于全地面起重机的伸缩臂长切换控制,以及配重升降机构的同步追随控制中。全地面起重机多级套筒式起重臂采用单缸插销式机构对臂节进行伸缩,而单缸插销式伸缩臂变换臂
随着我国电气化铁路的快速发展,装用大功率电力电子变换器的“交-直-交”型电力机车、和谐号、复兴号系列动车组(下文统称“牵引负载”)被高密度投入运用,牵引供电系统与牵引负载形成的电气耦合系统成为一个典型的单相电力电子化系统;电力电子变换器具有较强的非线性特性,其与牵引供电系统间存在较为复杂的交互关系,给车网电气耦合系统的安全稳定运行带来了新挑战。大型枢纽地区发生的牵引负载特征谐波频率与谐振频率不一致
学位
学位
随着我国经济突飞猛进的发展,城市化建设也就越来越重要,步伐越来越快,带动了建筑行业的进步。其虽然是良好的发展契机,但同样是一次严峻的挑战,在市场竞争愈发激烈的条件下,建筑工程成本控制、风险应对也就备受关注。建筑企业要想更好的发展与立足市场,就需要切实提高项目工程经济效益,提高造价成本控制力度与风险应对能力,做好建筑工程成本的调整战略,以提高工程科学性、合理性,保障建筑质量的同时实现建设成本最低化,
当前,预备役军官队伍整体构成日趋合理、结构布局日臻完善、组训模式日渐正规,但部分单位仍存在着重平时建设,轻战时动员使用,实用型、协调型、管钱管物的多,打仗型、指挥型、善谋打仗的少等问题。要解决这些问题,关键是要在预备役军官编组上严把"五关":一是把好专业对口关。编组的预备役军官队伍,一旦专业对口,只需要通过短时间的强化训练,就能马上具备遂行应急作战任务的能力。这就是说,多编专业对口人员,既可
期刊
近些年来,家用汽车的逐渐普及不仅极大地推动了汽车制造业迅猛发展,也强烈地刺激了冲压模具产品消费的爆发式增长。汽车模具材料主要使用锻造合金模具钢,其制造周期长,材料浪费大,经济效益差。而铸造合金模具由于能够近终成型、工艺简单、材料利用合理、制造周期短、成本低等优势逐渐替代锻钢模具。因此,汽车等冲压模具“以铸代锻”具有重要工程价值和经济价值。在制造过程中的铸造环节,铸造模具钢产生气孔、夹渣、缩松等表面
当前,新时代的马克思主义话语体系构建既面临着“根植本土”的需要,又面临着“面向世界”的需要,而“根植本土、面向世界”的新时代马克思主义话语体系离不开与之密切相关的文化语境。文化语境对话语的解释、分析、影响和制约作用,决定了其在任何一种话语体系的构建之中都扮演着十分重要的角色,且作用突出。从国内来看,中国特色社会主义进入新时代,文化自信作为更基础、更广泛、更深厚的自信,成为新时代中国话语走向世界的重
目的 探讨新型冠状病毒肺炎(COVID-19)疫情下网络教学对医院实习生学习的影响。方法 通过问卷调查的形式,分析并总结2019年5月至2020年3月于四川大学华西医院实习的雅安职业技术学院、四川护理职业技术学院学生对上网课的条件及网络教学的满意度、网络教学对实习学员的情绪影响及上网课的条件等,讨论线上教学对实习生教育的影响。结果共纳入204名药学专业实习生,共收集问卷204份,有40.2%学生在