基于时间距离度量的多数据流快速聚类

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhangqian728
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录,网络搜索请求,电信通话记录,卫星探测和天文观测科学研究数据等,这些数据流中隐含着丰富有价值的知识。聚类分析作为数据挖掘的重要分支,是处理分析多数据流的一个重要方向。聚类多数据流是一个有趣又有挑战性的课题。为了减少计算复杂度和提高聚类质量,许多时间序列数据流压缩方法和相似度量已经提出。传统的聚类方法需要存储全部数据用于计算,而在流数据环境中,数据流是实时无限的,全部存储和多遍扫描变得不再可能。此外,大多已存在的聚类方法,如:CluStream、DFT等基于数据对象值的欧氏距离作为相似度量计算,这些相似度量能有效聚类具有相似值域的数据流,不适用于聚类趋势相近但数据对象值域差距悬殊的多数据流。但在现实生活中数据流之间的相似趋势可能比数据对象值的大小更值得关注(例如股票的走势往往比其单价更值得关注)。本文提出一个新的聚类方案。首先为了提高效率引入地标压缩数据流,通过寻找数据流拐点获得地标。在聚类分析时使用数据流的少量特征地标数据可以减少大量计算以节约成本。其次为了聚类相似趋势的数据流提出了新的聚类数据流度量——时间距离,区别于已存在的聚类方法使用数据值之间的欧氏距离作为度量基础,新方法使用数据到达时间作为聚类依据,计算数据流之间地标到达时间的相似度聚类,它能将趋势相近但值域差距巨大的数据流划分到同一类。最后使用合成和真实数据集,分别采用传统欧氏距离度量和相关分析度量与新方案进行实验对比。实验结果表明在聚类多相似趋势的数据流时,本文方法具有更高的效率和更好的质量。
其他文献
目的:对完成骨科手术之后有关下肢深静脉血栓形成原因以及如何有效进行预防和诊治进行探讨;方法:对我院38例完成骨科手术后深静脉血栓的相关临床资料进行回顾和较为深入的分析;结
从济南市机动车年检线上利用稀释通道方法采集了小型汽油车、中型汽油车、中型柴油车和大型柴油车4类机动车排气载带PM2.5,分析测量了样品中水溶性离子、金属元素、有机C(OC)和
目的 分析炎症性肠病(inflammatory bowel disease,IBD)1998-2014年文献变化情况,为IBD研究提供核心期刊、研究机构和研究者.方法 采用Excel表对万方医学网1998-2014年IBD文献
金属玻璃作为一种仅有几十年历史新型合金材料,以其独特的力学和磁学特性在众多结构和功能材料族群中占据重要位置。由无序结构和金属键合带来的高理论强度和大弹性极限使得
基于长期"三农"事业快速发展经验总结的基础上,乡村振兴的概念被逐步提出和完善。随着十九大上对乡村振兴发展战略的明确,如何实现乡村各项事业的高质量发展已然成为众多主体
转炉浊环水水质稳定处理是除尘浊环水循环使用的关键,作者根据转炉浊环水的水质特点,在实验室筛选出了适合转炉浊环水系统的水质稳定药剂,用其处理转炉浊环水系统黏附速率〈2
<正> 改革开放以来。湖北省枝江市水产业在发展农村经济中,显示出了重要作用,成为农业发展的重要产业、支柱产业和领先产业,归纳起来在以下六个方面作出了突出贡献: 一是在调
武汉音乐学院图书馆在市场经济的浪潮中,面向社会,走向市场,用开办音乐书店等方式,既创造了经济效益,又获得了良好的社会效益,为更好地服务于教学、科研打下了坚实的基础。
本文的研究对象是侧装式垃圾收运车的抱爪式机械手装置。机械手是垃圾收运车的重要组成部分,其主要作用是完成对垃圾桶的抓取、收回、升降、翻转、倾倒及空桶回归复位等动作。根据项目既定的技术要求和功能目标,建立了机械手的总装配模型、虚拟样机模型、有限元模型和参数化模型。进行了机械手的运动学和动力学仿真分析、静力有限元分析、模态分析和结构优化设计。本文的主要内容包括:(1)机械手结构方案制定、几何建模和工作原
广西南宁新永健高新技术有限公司,是一家专门从事引进国外高新技术,促进我国医院现代化建设的专业公司,具有研发、生产及工程安装为一体的多元化企业,亦是《中国医院建筑与装备》