概率混淆熵分类器评价方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:hostname
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今,分类技术作为数据挖掘领域中一项重要技术,不仅应用在机器学习、模式识别等科学研究中,也广泛应用在实际生活中的各个方面。一个分类器可以被付诸应用的前提是此分类器性能的良好程度是可以被接受的,因此如何更好地评价和选择分类器成为模式识别领域一个至关重要的问题。   首先,本文介绍了分类器的概念,并分析了分类器评价方法的研究现状。虽然目前已经提出很多分类器评价指标,这些指标可以从不同方面对分类器性能进行评价,但没有一种评价指标可以从各方面综合评价一个分类器的性能。另一方面,大部分评价指标是直接定义在二类的问题上的,然而多类问题上的分类器性能评价要复杂于二类问题,这尤其体现在评价一个分类器将各类样本区分开的能力时。本文致力于面向多类问题的分类器评价指标的研究,综合分析现有的分类器评价指标的优缺点,提出更加综合和精确的分类器评价指标。   其次,本文介绍了概率混淆熵评价指标提出的理论基础,提出了概率混淆矩阵的概念以及三种概率混淆熵评价方法的定义,即相对概率混淆熵(rpCEN),概率混淆熵(pCEN)和基于排序的概率混淆熵(spCEN)。三种概率混淆熵评价方法的计算分别基于不同的概率混淆矩阵。一个基本的概率混淆矩阵可以表示为[Pi,j],其中元素Pi,j表示真实类别为i类的样本被分到j类的平均概率。概率混淆熵评价方法是直接定义在多类问题上的评价指标,相比于定义在二类问题上的评价指标,概率混淆熵评价指标更多地利用了分类中的错误分类信息,不仅利用了真实类别为i的样本是如何被错误地分到其他各个类别中的信息,而且利用了其它各个类别中的样本是如何被错误地分到第i类的信息。另一方面,三种概率混淆熵评价方法将样本分为不同类的概率信息加入到分类器性能评价中,使其可以更精确更全面地评价分类器性能。   最后,本文设计了两个实验,实验一用于验证概率混淆熵评价方法的可行性,实验二将本文所提出的三种新指标分别与基于差错的评价指标,基于概率的评价指标及AUC变体指标进行性能比较,并对三种新指标进行性能比较。实验结果显示三种新指标在分类器性能评价时具有其优越性,并且在一般情况下,三种新指标中pCEN性能为最佳,rpCEN性能为次佳,spCEN最差。
其他文献
随着网络防御技术的不断发展,网络攻击技术也在不断升级。一方面,不断涌现出已知攻击类型的变种使得传统的入侵检测系统(IDS)难以发现;另一方面,近三年来更是出现了一些被传
随着智能视频监控系统的高速发展,近年来,人们对视频监控系统的智能性要求日益提高。多摄像头网络能够监控更广阔的区域,正在逐渐被重视。但是,由于经济、资源等方面的考虑,不太可
随着信息技术的发展,Web应用方式越来越受到用户的青睐。Web应用软件规模越来越大,构架越来越复杂,开发人员需要通过性能测试了解系统运行过程中的性能表现与资源消耗模式。性能
进入到21世纪后,SARS和甲型H1N1流感相继在全世界范围大规模爆发,人民的生命财产安全受到严重威胁,我们面临的形势十分严峻。国内外很多专家学者在传染病预测方面做了大量的研究
随着计算机在当前社会各行各业的广泛应用和Internet的飞速发展,网上的信息量呈几何级的飞速增长。本体作为一种能从知识和语义层次上表达信息的工具模型引起了重视。由于本
随着出版业与互联网的不断发展,读物领域的信息爆炸现象日益突出,如何帮助用户在大量读物中找到喜欢的读物成为亟待解决的问题。因此,能够帮助用户快速找到感兴趣读物的读物推荐
随着软件系统规模的不断增长,如何为软件开发过程提供高质量的软件需求规格说明日益受到业内人士的重视。业内研究人员不断探寻合理评价软件需求文档质量的模型和方法,期望能
随着我国经济与科学技术的发展,业主对住宅质量、生活质量的要求也越来越高。业主逐渐开始关心居住周边环境、安全卫生、信息流通、物业管理等方面。可见在不久的将来,新的由计
随着科学的进步,信息技术得到了快速发展及广泛应用,高维数据应运而生,如医学图像处理、计算生物学、全球气候模型等,高维数据难以被现有的机器学习和数据挖掘算法进行有效地
随着Web应用不断发展,作为Web应用系统的核心的数据库系统的性能问题受到很大的关注。如何能够利用数据库自适应技术,从商业价值的角度考虑数据库资源的利用,更有效分配数据库资