面向数据流挖掘的分类和聚类算法研究

被引量 : 23次 | 上传用户:waterdrop505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软硬件技术的飞速发展以及日益大众化,各个领域的数据呈爆炸式增长,数据的广泛使用和巨大数量使得我们的时代成为真正的数据时代。通常情况下,这些数据是以数据流的形式产生和积累的。相对于传统的静态数据集,数据流具有数据量大、随时间不断发生动态变化、连续快速等特点,这就要求流入系统的数据流必须得到实时处理。因此,传统的数据挖掘算法无法直接应用于数据流之上。数据流的特点向传统的数据挖掘算法提出了严峻挑战,并对数据流挖掘算法提出了如下要求:首先,算法需要对到达系统的数据进行实时处理,因为数据流的到达速率非常快,因此,算法的时间复杂度尽量要低;再者,由于数据流的数据规模通常较大,而计算机系统内存空间有限,不可能存储全部的数据信息,因此,算法的空间复杂度要低,使得能在一个仅保存部分数据样本的受限存储空间中得到此问题的近似最优解;此外,由于数据流的流动性,到达数据会随时间不断发生变化,算法必须能够根据数据流的动态变化来自动调节自身参数设置,使自身能够适应数据流的变化。因此,如何在数据流中提取出有用的信息成为当前数据挖掘领域的研究热点和难点。本文首先对数据流挖掘的理论基础以及一些相关的主流技术进行了概述,然后从数据流分类、聚类以及频繁模式挖掘三个角度分别介绍了一些现有的数据流挖掘算法,并在此基础上分别实现了两类不平衡分布数据流的分类算法和基于密度网格的数据流聚类算法。本文具体工作如下:1.对当前基于数据流的分类算法进行了分析。针对两类数据流分布不平衡的问题和概念漂移现象,在结合当前经典的数据流分类算法和集成分类器算法的优点后,设计并实现了一种具有更好适应性的SeRt算法。实验结果表明,该算法能有效地解决两类不平衡分布问题和数据流中存在的概念漂移现象。2.在传统聚类算法K-Means、数据流聚类核心技术——CluStream框架模型以及现有的数据流聚类算法PKS-Stream的基础上,设计并实现了基于密度和网格的数据流聚类算法PKS-Stream-I。该算法是对PKS-Stream算法在密度检测周期选择,稀疏网格检测和移除方面的改进。实验结果表明,该算法相对于PKS-Stream算法具有更小的时间复杂度和空间复杂度,能够产生更好的聚类效果。
其他文献
<正>因持续暴雨,近日印度一处大坝溃堤,造成至少18人死亡。当地水资源保护部长萨万特却表示,这场悲剧应归咎于螃蟹。萨万特说,大坝的溃坝原因是大量螃蟹聚集在大坝周围,导致
期刊
我国为了能够吸引中长期投资者,期望借助外来机构投资者的价值投资理念引导我国投资者、壮大我国证券市场上机构投资者的数量,于是在借鉴了新兴市场国家如印度、巴西、韩国、
本文研究的背景是在随着全世界人口老龄化越发严重的形势下,很多国家的财政在社保问题上的负担越发沉重,世界各国社保主管部门和社会保障专业人士开始对社保制度重新审视,国
相控阵接收系统主要由相控阵接收天线阵和接收阵列单元组成。相控阵接收技术目前最主要的需求是发现并确定目标的主要参数,包括方位角、俯仰角、速度和距离等,最终完成对目标的
黄金作为一种贵金属,具有别的金属无法比拟的内在价值,伴随着人类漫长的成长史,逐渐成为了重要的交易媒介、价值尺度,还发挥着贮藏的重要功能。随着“布雷顿森林体系”于1973
目的本文通过分析安徽省卫生资源配置的现状,了解当前安徽省卫生资源配置中主要存在的问题,并结合洛伦兹曲线和基尼系数法,对安徽省卫生人力、物力、财力资源按人口及地理分布的
随着新一轮课程改革的推进和目前信息技术的飞速发展,开展信息技术环境下的课堂教学模式研究,将信息技术与学科教学有效整合研究,真正的把信息技术融合到学科课堂教学之中,是
民间金融作为对正规金融的补充,为我国经济的发展做出了突出贡献,促进了中小民营企业的发展。然而长期以来,民间金融一直未得到法律的认可,政府对其也往往采取打击和取缔的办法,疏
股票市场上投资有风险是众所周知的,而且种类繁多,大概我们可以将之分成两个大类:一种是投资者们的分散投资策略可以有效规避的非系统性风险,另一种是投资者们的分散投资策略
日本作家大江健三郎的近作《被偷换的孩子》,是一部因自杀的友人而完成、揭示日本现行社会精神危机的作品。忧心忡忡的大江健三郎通过changeling这个形象警示人们,在这个世界上