基于不同属性数据流的离群数据挖掘算法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wuang810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘由于没有采用合理的加权思想,挖掘出的离群数据偏差较大。这些问题的研究对金融欺诈检测、网络入侵检测、以及天气预报等风险控制领域具有重要的意义。文中首先提出了一种混合属性数据流离群点检测算法HDSOD,引入聚类参考存储数据流的概要信息,先对数据流进行分区,对于每一分区进行聚类,将聚类结果存储于聚类参考中,充分利用聚类参考的存储信息计算其代表度,以及与其相邻的聚类参考的个数,判断该聚类参考是否为离群参考对象,离群参考对象所代表样本点为可能的离群点。该算法在有限内存中有效的对混合属性数据流进行离群点检测。其次,提出了分类属性数据流的离群数据挖掘方法CFPOD-Stream。该算法定义了加权闭合频繁模式离群因子,通过动态发现和维护频繁闭项集来计算离群度,采用带有衰减因子的查询索引结构来处理数据的概念转移现象,有效地检测出离群数据。最后,将离群数据挖掘方法应用于软件漏洞分析,该算法对算法CFPOD-Stream进行改进,发现与离群事务相偏离的闭合频繁项集,用以解释其软件漏洞发生不频繁的原因。本课题使用C++语言对上述算法进行实现,使用现实数据集KDD-CUP-99和仿真数据集对文中提出的算法进行测试,通过对不同处理结果的对比分析,所提出的算法在解决各自的问题上是有效的。
其他文献
现代企业资源具有分布式、异构性、跨领域协同工作等特点。在企业信息化建设过程中,由于业务的复杂性和计算机技术飞速发展,许多信息系统的开发缺乏整体规划和系统性,不同时期构建的业务系统可能基于不同的操作系统平台和数据库技术。因而各个系统之间很难有效地实现信息共享和交互,形成了“信息孤岛”现象。随着电力市场的发展和协同业务开展的增多,“信息孤岛”式的系统已经不能满足企业发展的需要,迫切需要研制出一套真正的
由于各种通信网络的迅速发展,多媒体技术已经广泛融入人们的日常生活中。其中,视频压缩技术是目前应用最为广泛的多媒体技术之一。最新的H.264/AVC视频压缩标准中采用了许多