基于SPF的流数据离群点挖掘研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:cboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,出现了一种新的数据类型——流数据,它是一种顺序、量大、快速、连续到达的数据序列,存在于人们生产和生活的各个领域,如网络监控、气象测控、股票交易、火车票售票系统和传感器网络等。与传统数据相比,流数据具有实时到达、数据量大和不易预测等特点,这决定了很多传统数据集上的挖掘算法无法应用于流数据,它要求算法能在有限的空间和时间内实时处理数据。因此,研究针对流数据的挖掘算法具有十分重要的现实意义。离群点数据广泛存在于现实应用中,如:银行交易数据中,少量的离群数据可能预示着金融欺诈行为;疾病监控类信息中,实时监控离群数据可以及时发现疾病的变异或预防重大疾病的爆发;在机场安检系统中,及时检测离群数据可以避免机器故障等带来的危害;网络评论中,有效检测出离群数据可以及时避免恶意信息的传播。目前,离群点检测(OutlierDetection,OD)研究已取得一些较好的成果,主要有基于统计、偏离、聚类、距离、密度等的检测技术,但难以应用于检测精度和实时性要求比较高的场合,如流数据序列中的离群点检测。本文针对这一问题展开如下三方面研究:(1)通过对流数据挖掘和离群点检测方法的分析,结合特异性因子(Peculiarity Factor,PF)和滑动窗口,给出了基于窗口的离群点定义;(2)分析窗口内数据的特点的基础上,提出了基于最优窗口的离群点检测算法,设计了最优窗口学习方法,用于流数据离群点检测,并在多个数据集上进行实验,结果表明所提方法有效可行;(3)探索了流数据离群点检测方法在观点挖掘中的应用。
其他文献
近年来,随着计算机、通信和网络技术的迅速发展,以及个人移动通信设备尤其是手机的普及和分布式网络应用程序的需求扩展,移动Web服务正得到广泛的关注和快速的发展。同时,J2ME作
随着Internet的发展和后PC时代的到来,人们开始越来越多地接触到一个新概念——EI(Embedded Internet,嵌入式Internet)。EI是指把TCP/IP协议作为一种嵌入式应用,从而实现接入Inte
随着信息技术和网络技术的快速发展,人们对数据安全意识的增强,TB甚至PB级的数据需要被备份归档。由于拥有大容量的磁带库设备和共享的逻辑存储池,层次存储系统和网络存储系
随着石油工业和计算机技术的发展,利用图像处理算法分析地震剖面图已成为一种研究趋势,而基于地震剖面图的相似性分析对地质体进行分类已成为研究的热点。地震剖面图是典型的
工作流技术是进入90年代以后计算机应用领域的一个新的研究热点。当前,工作流技术已经应用在很多的领域,特别是在组织的运作当中。很多组织利用工作流系统来处理他们的业务流程
Web技术是推动Internet发展的重要里程碑。伴随着电子商务、电子政务以及网上教育、个人博客的蓬勃发展,Web服务在社会政治经济生活中发挥着越来越重要的作用。目前互联网上
工作流技术是实现业务过程自动化的一种有效手段,事务处理技术对于提高工作流管理系统WfMS(Workflow Management System)的可靠性具有重要作用。在20世纪90年代,人们将各种扩展
随着下一代网络技术的逐步推进,Web服务技术的深化,网络摄像机的智能化发展,网络技术、多媒体技术、异构平台的软件支撑技术日益成熟。语音、视频、数据等多种业务能够融合在
随着WEB技术的日益成熟和企业信息化的广泛应用,大量的数据充斥在各个企业的业务系统中,如何有效利用这些资源,发现知识已经成为企业研究数据应用的热点。正是在这样的背景下,客
随着个人PC、家用计算机、企业单位计算机的普及使用以及互联网的高速发展,高科技给我们的生活带来越来越多的便利;然而,任何事物都是一把“双刃剑”,在高速发展的同时所暴露出的