【摘 要】
:
离群点挖掘包括离群点检测和离群点分析两个方面,是数据挖掘中的一个重要部分。为有效的检测出离群点,研究人员开发了大量的离群点检测算法。如:基于统计、基于距离、基于密
论文部分内容阅读
离群点挖掘包括离群点检测和离群点分析两个方面,是数据挖掘中的一个重要部分。为有效的检测出离群点,研究人员开发了大量的离群点检测算法。如:基于统计、基于距离、基于密度、基于深度以及基于偏离的检测算法等等。这些算法都集中于离群点的发现研究上,虽然能有效地找出离群点,但是不能反映出这些离群数据的产生原因和来源,在许多情况下缺少实际的应用价值。研究离群点的目的和用户关心的问题不仅是找出离群点,更重要的是对它们的产生来源、含义等进行分析,获得进一步的扩展知识,从而为决策提供有力的支持。离群点分析包括解释和描述离群点异常行为的知识发现及预测系统异常的离群模式的挖掘。对离群点进行准确完整的分析不可避免地要具备足够的问题领域知识,但从数据集以及离群点在属性域空间的分布特征等方面研究可以获得相当丰富的扩展知识。离群点知识集是能描述和解释离群原因的最小属性集;强/弱离群点,是对不同离群程度的离群点的分类;属性格是直观表示离群点和知识集以及它们之间对应关系的格;离群模式是对发生异常可能性的数值描述语句,能够对系统异常做出预测。本文的主要贡献如下:1、提出离群点知识集发现算法FindKnowledgeSet。该算法与离群点检测相融合,采用低维到高维的属性集分析思想,挖掘离群点的所有知识集。实验结果分析表明该算法可有效发现离群点知识集并可合理解释离群原因。2、为解决算法FindKnowledgeSet处理大型数据集的不适用性,结合CURE算法中的抽样技术来减少算法FindKnowledgeSet的复杂度。实例分析抽样后算法的时间效率明显提高。3、根据知识集和强/弱离群点的定义将离群点分类,找出不同离群程度的离群点间的影响关系;实例分析属性格表示离群点和知识集的简洁性和直观性。4、利用有向图将离群点集和它们之间不同的相似性关系表示出来,将离群相似模式的挖掘过程演变成有向图最长路径的寻找过程。实例分析计算相似性和挖掘离群相似模式的过程。
其他文献
在互联网的大潮下,各个领域都在积极地开展自己的互联网业务。面对硬件资源紧缺以及利用率不高的问题,大家需要找到一个合理可用的方法来解决这些问题。云计算就是在这样背景下
强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应
在多机器人系统的研究中,多移动机器人系统的协调合作始终是一个热点,也是该领域中一个基础性的研究方向。机器人足球系统是典型的多机器人协作系统,是研究多机器人协作问题
耐维-斯托克斯(Navier-Stokes)方程是早在18世纪就已经发展完善起来的一套对流体行为进行精确建模的偏微分方程组,描述了流体内部速度和压力的变化及其相互关系。本文以此为
现场总线控制系统已逐渐发展成为继集散控制系统(DCS)之后的新一代控制系统,成为当前控制领域内的热点之一。在众多的现场总线标准中,过程现场总线(PROFIBUS)标准以其国际化
基于内容的图像检索(CBIR)是计算机视觉和其它计算机科学领域的研究热点,但图像的低层特征与高层语义之间的巨大语义鸿沟束缚了CBIR的发展。基于支持向量机(SVM)的相关反馈机
供应链批量问题在管理库存和节约成本方面做出了出色的贡献。由于需求等大量的影响因素受市场环境等条件影响波动较大,会出现各种难以预料的变化,通常会导致不能够得到准确的预期效果,因此基于模糊机会约束规划的联合补充问题就因此产生。模糊机会约束规划的联合补充模型中,需求被作为模糊变量来处理,使得整个问题模型可以简化为一个相应的数学模型,然后问题的核心转换为对该模型的求解。而对于求解模糊机会约束规划的联合补充
数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展架构,它适应数据密集型应用对网格环境下数据共享和处理的需要,给用户提供了透明访问远程异构数据资
组播技术是一种群体通信的手段,是目前网络中研究最多,应用最广的一种通信方式,它要求信息从一个源节点同时发送到多个目的节点。路由作为多媒体网络的核心技术,其研究范围比
随着移动通信网络的发展,数据传输速率的提高以及带宽的增加使得无线环境下视频的传输成为可能。但视频数据量非常庞大,而为移动服务所付费用又与无线链路上传送的数据量成正