一种基于数学形态学的离群点检测算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:julyanjust
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。在信息爆炸的今天,数据挖掘显得尤为重要。 一个人的噪声可能是另一个人的信号,忽视或降低离群点的存在性都将可能导致重要隐藏信息的丢失。在一些从数据库中发现知识(KDD)的应用实践中,发掘特别的实例,不具备一般数据特性的数据对象或离群点比找出普通模式更加令人感兴趣。因此,离群点本身可能是非常重要的,例如在欺诈探测中,离群点可能预示着欺诈行为。总之,离群点检测是数据挖掘领域一个重要的研究方向。 本文在分析已有离群点算法的基础上,提出了一种基于数学形态学的离群点检测算法。该算法首次把数学形态学的理论引入到离群点检测中,采用启发式方法自动检测离群点,无论是点状、线状,还是各种复杂的面状(凸面形状、非凸面形状、环面形状等)数据集,算法都能正确和精确地找出离群点,而对于非均匀密度数据集、多密度的数据集,算法也同样地能找出离群点。算法考虑了离群点“局部”的概念。无论与怎样的方式输入感兴趣的数据,对算法确定离群点都没有任何影响。此外,由于使用的是启发式的方法检测,用户只需要输入感兴趣的数据作为输入,而无需输入其它参数即能自动确定出离群点。同时,该算法既适用于栅格系统又适用于矢量系统,且便于进行并行高速处理。 算法循环地用半径由小到大递增变化的圆形结构元对数据库中的各数据点作闭运算,具体地说是半径由0开始,以增幅为1进行变化,这一过程中非邻接点个数以不同速度逐渐减少,当半径为0时所有的数据点都为非邻接点,当半径增大到一定程度时,非邻接点个数为0。随着结构元半径的不断增大,找出非邻接点个数与半径之间存在的关系,最终检测出数据库中存在的离群点。 大量实验和理论分析表明该算法是可行的和有效的,能从数据库中正确并且精确无误地找出离群点。
其他文献
随着软件过程技术的不断成熟,软件过程在软件开发中扮演着越来越重要的角色。软件过程已经成为开发高质量软件所必须的活动框架,软件过程的评估、控制和改进对软件产品的质量起
专有名词的自动识别(ProperNounDetection)对自然语言处理领域的“信息提取”,“机器翻泽”,“自动问答系统”,“自动摘要”等系统影响较大。目前存在各类专有名词(简称专名)识
房地产业是国民经济的重要组成部分。改革开放以来,随着我国经济建设的飞速发展和老百姓生活水平的提高,以及国家住房制度的商品化改革,我国房产行业在近些年内呈高速发展趋势。
AJAX是当前Web客户端技术研究的热点,通过Java Script与DHTML提供一种异步编程模型,从而提高网页的交互和响应能力,为用户带来更好的人机体验。JSF是SUN新的Web应用开发框架,提供
当今科学研究呈纵横两方向发展,纵向各学科分支越来越细,越来越深入;横向各学科联系越来越紧密,把某个领域成熟的思想进入到另一领域往往能产生较好的科研成果,模拟生物系统进行科
网络通信技术发展到今天,有着辉煌的成就,它的发展使人们沟通便利,交际自由,是现代化一个重要标志。即时通信软件是人们上网交际的常用工具,使用即时通信工具能够实现与好友即时,快
软件演化是一个程序不断调节以满足新的软件需求的过程,即是对一个已有的软件系统进行不断修改、补充和完善,以适应新的需求和环境变化的过程。软件演化已成为如今软件工程领域
软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了今天软件工程研究的热点领域。软件演化的过程表现出了明显不同于传统软件过程的特征。因此,有必要
数据分类技术是数据挖掘中一种强有力的分析手段,它旨在生成一个分类函数或分类模型,由该模型把数据库中的数据项映射到某一给定类别中。现有的数据分类算法大体可以划分为两大
数据挖掘是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘