基于聚类分析的数据流处理算法

被引量 : 0次 | 上传用户:shylake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术在不断发展,随之而来的是越来越多的实际工程应用中需要处理一种海量数据,这种数据具有瞬变性、实时性以及无限性等特点,称之为数据流。数据流最早出现在传统的银行和股票交易领域,现在也出现在地质测量、环保、气象、天文观测等领域。尤其是在互联网络,比如网络流量监控、点击流量等以及无线通信网络。由于大多数的这类数据的维度较大,因此能够持续自动产生大量的细节数据。对于这些领域的数据可以进行包括趋势分析、预测等等这类复杂的分析,这些操作可以在数据仓库中进行脱机处理,而在网络安全和国家安全应用领域中,对时间都非常敏感,如复杂人群监控,趋势监控,探查性分析,检测互联网上的极端事件、入侵、异常、欺诈以及和谐度分析等,都需要在线进行及时分析。因此通常都需要对数据流进行近实时的复杂分析。频繁模式挖掘、分类以及聚类是数据流的三个主要分析方面,这三类都用到了一些如滑动窗口技术的新方法和新技术。本文通过介绍数据流和数据流聚类算法,针对桥梁健康监测数据进行分析,提出了一种改进的基于特征投影和拟合的数据流聚类算法(HpFitStream)。该算法结合滑动窗口技术和拟合算法对数据流进行聚类预处理,并将聚类之后的数据流的统计特征存储于概要数据结构中,运用统计分析学的相关理论对数据流中的数据点进行相关分析,掌握和了解数据流的特征和变化趋势,从而有效地分析被监测对象的状况,为被监控对象在发生严重异常时,进行早期预警,以及维护、维修与管理提供保证。本文的研究主要集中在以下几个方面:①概述数据流,并从数据流的处理功能出发,介绍现有的数据流处理模型,包括滑动窗口模型、界标模型以及快照模型,总结现有数据流模型的优缺点。以研究内容和研究目的为出发点,本课题选择了基于滑动窗口的数据流处理模型,以保证数据处理的可靠性以及稳定性,并分析可行性。②介绍数据流聚类分析的概念、经典数据流聚类算法。目前聚类分析中大部分聚类算法都是针对低维数据流的,而现实中需要处理的数据往往大部分都是高维的,因此本文也介绍了高维数据流的聚类算法。针对桥梁健康监测数据的多维性,在经典数据流的聚类算法基础上,本课题提出了一种改进的数据流聚类算法,基于特征投影和拟合的高维数据流聚类算法(HpFitStream),实现对大量的、动态的、高维数据流的聚类。该算法结合滑动窗口技术,采用特征向量投影实现高维数据流的降维处理,并采用多项式拟合算法对原始数据中的异常数据进行预处理。③在聚类结果的基础上,课题提出了一种新的数据流趋势分析方法,基于滑动窗口的数据流分段趋势分析,该方法采用滑动窗口算法对数据流进行实时快速的分割,应用最小二乘法对滑动窗口中的数据流进行非线性的多项式拟合,并对对数据进行预测分析。在应用最小二乘法对数据流进行趋势分析后,若数据流没有异常,可根据拟合算法对不同时期的数据进行预测,观察数据更详细的趋势发展。经实验结果证明,本文聚类算法不仅能有效压缩数据,节省内存空间,还能大大缩短数据处理时间,有效提高聚类质量。且分段趋势分析方法,也大幅度提高了数据处理速度。
其他文献
协调性发展是经济社会发展的应有之义。教育发展与社会经济发展相辅相成。经济发展是社会各要素发展的基础,没有经济的增长与发展,其他社会要素的发展就无从谈起。教育发展也
高等教育大众化条件下的大学生就业形势日趋严峻,缓解大学生就业结构性矛盾的难题需要不断增强毕业生的就业能力。合理调适专业、坚持特色育人、强化就业指导是现行教育体制
我国高放废物实行集中深地质处置,包装材料和高放玻璃固化体是处置库的核心。长期放置在地下,高放玻璃固化体和金属包装材料固体会被地下水侵蚀,其表面物理化学参数将发生变
通过测定盐酸、己酸处理的玉米秸秆青贮饲料的 p H值、含水率、有机酸含量及组成、干物质消失率、NDF瘤胃降解率、干物质回收率和青贮饲料化学成分 ,研究了盐酸、己酸的处理
为研究眉山市主城区降水污染的来源,于2009年1月~2013年12月在眉山市主城区采集降水243场,并采用pH计、离子色谱仪、流动注射分析仪和原子吸收分光光度计等设备检测了降水的p
教师专业发展是当前教育改革的重要议题。人学是教师专业发展必须依据的哲学基础与基本前提,为我们理解作为"人"的教师及其专业发展提供了新的视角。人学视野中,需要、生命、
教学内容是“高等学校本科教学质量与教学改革工程”的重点改革和建设之一.文学课程是使英语学科有别于其他学科的专业知识课程,其目的在于:“培养学生阅读、欣赏、理解英语文
目前矿山土地复垦建设项目投资尚无相应标准,项目投资主要依据土地开发整理项目的预算标准编制。为此结合多年从事矿山土地复垦项目投资编制和审核的经验,解析矿山土地复垦项
本文首先从新奥法的理论出发,探讨隧道衬砌结构的作用以及衬砌结构安全性评估的计算原理;其次针对目前隧道中常见的病害,分析其特点以及形成机理;然后以某隧道的检测为例,研究
基于投资建设内部审计部门的角度,分析全过程跟踪审计存在的审计目的不明确、审计定位不清晰、审计深度不够等问题。然后结合实例,阐述BT项目投资建设方过程跟踪审计的实施要