【摘 要】
:
离群数据挖掘是数据挖掘的重要内容,是寻找与大部分数据不一致,有明显差异的离群数据的过程。数据获取技术的发展,使得数据的维度和数据量急速增加。传统离群数据挖掘算法的
论文部分内容阅读
离群数据挖掘是数据挖掘的重要内容,是寻找与大部分数据不一致,有明显差异的离群数据的过程。数据获取技术的发展,使得数据的维度和数据量急速增加。传统离群数据挖掘算法的挖掘精度受到“维灾”严重影响,并且无法适应海量数据。本文利用高斯混合模型,对基于相关子空间的离群数据挖掘及其并行化进行了深入研究。主要成果如下:(1)给出一种基于高斯混合模型的相关子空间与离群数据挖掘算法。该算法首先根据K近邻算法,确定数据集中各数据对象的局部数据集,并依据数据对象属性值的稀疏度生成全局的稀疏度矩阵,稀疏度矩阵有效地体现出数据的稀疏性和稠密性;其次,利用高斯混合模型和稀疏度矩阵,重新定义了数据集的相关子空间,可有效地适用于任意分布的数据集;然后,在相关子空间中,利用数据对象每个维度的稀疏度和属性权值,计算数据对象的离群值,并选取离群值较大的若干个对象作为离群数据;最后采用人工和UCI数据集,实验验证了该算法的有效性。(2)采用Spark并行计算平台,给出一种基于高斯混合模型和相关子空间的离群数据并行挖掘算法。该算法利用弹性数据集(RDD),将局部数据集、稀疏度矩阵、相关子空间矩阵等各计算节点生成的中间计算结果,存放在内存中;在各计算节点,计算数据对象的离群值,有效地提高了挖掘效率;利用天体光谱数据集,实验验证了该算法的可扩展性和延展性。
其他文献
2017年10月,十九大报告明确提出要实施乡村振兴战略,将之视为解决“三农问题”的重要战略,2018年的一号文件以及9月中共中央、国务院印发的《乡村振兴战略规划(2018-2022年)》明确提出了实施乡村振兴战略的路线图,并提出了“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”的总要求。乡村振兴,产业振兴、产业兴旺是重点。中国农村的产业发展模式同样需要我们进一步思考和探索,其中发展主体、发展目
裂缝检测对保障桥梁安全运营具有重要意义。分布式光纤传感器能够采集沿光纤长度分布的桥梁表面应变,即分布式应变。它对结构表面裂缝敏感,通过检测分布式应变的异常改变,可
自改革开放以来,行政审批改革是中国改革中的重要环节,为政府改革的重要组成部分,也是建设以法治和服务为基础的政府中的一个重要方面。随着我国经济进入一个新的发展阶段,政府的职能定位要求更高。深化行政服务改革,市场在更好地资源配置方面发挥着决定性的作用,促进经济发展和建设人民满意的服务型政府等,这些都是政府的重要课题,也是政府全面改革的基础。在放管服改革的大背景下,地方政府需要不断探索和创新,简化行政管
随着我国汽车数量呈急剧增长的趋势,道路交通安全越来越受到重视。行人作为道路交通中主要的参与者,其安全往往不能得到保障。行人检测系统作为辅助驾驶系统的一个部分,从主
长期以来,社区学院处于美国高等教育系统的边缘化地位。奥巴马政府执政伊始,对内面临美国经济危机产生的国内生产总值下滑、劳动生产率降低以及失业率居高不下的问题,对外面
相对于线性表结构和树型结构,无论是在结构方面还是语意方面,图数据结构在现实世界都具有更好的表达能力,甚至现实生活中的一些场景用图数据表示更具有优势,因此针对图数据的
中国西南苗族的三大方言区拥有各自相对独立的创世古歌文本,其创世叙事既有相同之处,又各有特色。三大方言区苗族古歌的创世叙事有很多相同点,第一章集中讨论了创世叙事文本
天津近代租界的城市公园景观打破了空间的限制,实现了东西方文化之间的交融,随着时间的推移,逐步演变成为具有历史文化意义的城市公园景观,也为我国近代城市景观的建设提供了良好的蓝本,同时,也给与城市景观规划、城市基础景观设施建设等方面以启迪,加强了天津市特色鲜明的历史文化氛围的形成。基于文化视野的天津近代城市公园艺术研究,其根本就是探索其营建和发展过程中的城市文化、地域文化、景观文化;以及在景观文化视野
目的:评价二尖瓣和主动脉瓣位置植入爱德华Perimount牛心包人工心脏瓣膜(爱德华生命科学,上海)术后5年临床和血流动力学结果。方法:2015年1月到10月期间,在天津市胸科医院植入爱德华Perimount牛心包人工心脏瓣膜的患者中,最终纳入二尖瓣置换(MVR)患者33例,平均年龄61.9岁(47-74岁),主动脉瓣置换(AVR)患者21例,平均年龄60.9岁(41-81岁)。二尖瓣型号type
信号的频率估计是信号频谱分析的一个重要内容,而频率又是信号的一个极其重要特征,近年来,对信号的频率估计以及各种适用于实际工程的算法研究收到普遍关注和重视。本文围绕