时态数据流的增量聚类算法研究及其应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:hellangel112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域一项重要的研究课题。近年来,随着计算机和应用技术的高速发展,人们获得数据的能力有了极大的提高,同时获得的数据途径也越来越多。数据流(data stream)作为一种特殊的数据来源,越来越备受关注。如WEB点击流、气象观测信息流、电话记录信息流、卫星数据流等。由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,因此急需开发适应数据流环境的聚类算法。计算机工作者们面临着新的挑战。本文针对时态数据流进行了研究,给出了时态数据流的概念和定义,同时在subspace a-cluster的基础上提出了TMSC(temporalmultiple-dimension subspace cluster)聚类算法来查找聚类,该算法采用了滑动窗口的形式,使得算法能保证无须针对所有时间点的数据同时进行聚类,减少了算法所需空间开销;同时有增量保持阶段,增量阶段无须重复计算之前的数据,只需处理新到达的相关数据,因此增量处理快;最后把算法用Java实现后,应用到了股票数据中,通过不同的参数设置,找到了不同时间段的聚类,有其一定意义。TMSC算法的主要创新之处为:1)从只能处理单维数据流扩展到了多维数据流;2)改进了聚类剪枝标准;3)对从m-level查找m+1-level的聚类给出了明确的定义和证明;4)发现了原先算法在增量更新阶段将会漏掉的聚类结果,通过保留所有聚类结果,解决了这一问题。
其他文献
计算机的飞速发展和教师计算机技能的提高,使得多媒体软件在教学发面应用越来越广泛,本文从多媒体软件在化学实验教学方面和实验数据处理方面的应用作了一系列的介绍。提出一
很多学生认为思想政治课政治原理晦涩、枯燥、乏味、空洞,条文繁琐冗长,于是在课堂上出现了学生无精打采、昏昏欲睡的现象。怎样才能帮助克服学生消极心理定势的影响,变厌学
背景自噬是一个支持营养循环和代谢适应的多步骤溶酶体降解途径,被认为是一个调节癌症进展的过程.本研究使用白花丹醌处理大鼠肝细胞癌(hepatocellular carcinoma,HCC)细胞,
背景溃疡性结肠炎(ulcerative colitis,UC)是临床常见慢性肠道疾病,发病率较高,临床治疗UC主要以糖皮质激素类药物为主,但由于UC病情易反复,治疗效果不佳.虎地肠溶胶囊有清热
背景真核起始因子3(eukaryotic initiation factor 3,eIF3)是哺乳动物细胞中最复杂的翻译起始因子,真核起始因子3e亚基(eukaryotic initiation factor 3e subunit,eIF3e)是eI
背景随着饮食结构的改变和生活方式的快速变化,慢性便秘发病率呈逐渐上升趋势.睡眠障碍可增加胃肠道症状,也是焦虑、抑郁形成的一个危险因素.本研究旨在探讨睡眠障碍对老年慢
2005年,云南马帮进京轰动一时。从千年茶马古道走出来的茶商炒热了普洱茶。一夜暴富也可以依赖一块小小的茶饼或者茶砖,当普洱茶也如股市般经历疯狂高涨、回落之后,泡沫散去
新时期以来,无论是从诗歌、小说、戏剧影视等各个方面来看,"桂军"无疑都已经成为中国当代文坛的重要一支,批评家黄伟林不仅全程参与了桂系文化的建设,并且对于"桂军"力量的彰显起
目的了解柳州市学龄期儿童注意缺陷多动障碍(ADHD)的流行特征及影响因素,为儿童ADHD的综合防治提供参考。方法采用分层随机整群抽样方法,抽取柳州市城区一~六年级共9 628名小
目的探讨超声造影在肝脏恶性肿瘤射频消融治疗中的临床价值。方法应用造影剂声诺维对69例92个肝脏恶性肿瘤于射频消融治疗的前,后进行超声造影,观察并分析超声造影的声像图特征