基于时间序列的频繁模式挖掘研究与应用

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:sz10088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的不断发展,越来越多的用户每天在网络上进行着社交、网上购物、浏览新闻等不同类型的网络活动,同时网站后台记录了这些用户大量的交互信息、购买、点击、浏览等行为,产生了海量的结构化数据,半结构化数据,甚至非结构化数据。这也促进了大数据技术的蓬勃发展。其中,数据挖掘技术就是近年在对海量用户行为数据进行整合处理和深层次模式发现的实际需求下,产生的一项非常流行且重要的技术。频繁模式挖掘是数据挖掘技术的一个重要研究方向。本文基于传统的时间序列数据挖掘研究,以气象领域的时间序列数据分析为实际应用背景,对基于时间序列频繁模式挖掘中的时间序列符号化、基于时间序列的频繁项集挖掘、基于时间序列的频繁序列挖掘和基于Hadoop平台的频繁模式挖掘等四个方面的问题进行了深入研究和分析,对于时间序列符号化技术和时间序列频繁项挖掘的关键算法提出了改进,并取得了一定成果。由于时间序列数据固有的结构特性,如高维性质、连续性以及现实观测设备引入的各种噪声使得一般的时间序列处理流程通常会先将时间序列转换成离散的、有序的字符串,再在转换后的字符序列上进行后续挖掘任务。本文在对气象数据时间序列的频繁模式挖掘中,为了更好的识别时间序列的局部趋势变化,对时间序列符号化的分段线性化步骤进行了改进,提出了基于误差增量的符号化算法。其次,为了更好处理海量的时间序列数据,本文基于Hadoop的Map-Reduce模型实现了负载均衡的FP-growth算法的分布式计算程序。最后本文还实现了基于Python的时间序列数据挖掘系统,将本文提出的算法和解决方案集成起来,并提供了可视化的图形界面。
其他文献
P2P (Peer-to-Peer)对等网络已经成为Internet中最重要的应用系统之一。然而,P2P具有的开放、匿名以及松耦合等特性,使得网络系统的安全面临着巨大的挑战,由此导致不可靠的服
无线局域网(WLAN)因其移动性、灵活性和经济性的特点,目前已得到广泛的发展。随着无线局域网的用户越来越广泛,其安全性的不足也渐渐凸显出来,成为制约其发展的一大要素。目前的
计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数
进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识:“从简单到复杂、从低级到
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大