面向时间序列的动态矩阵聚类方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:luo_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息传输及数据存储技术的深度发展,时间序列相关的应用领域不断拓宽,金融、医疗、气象、销售等诸多领域时刻产生着各种类型的时间序列数据,数据规模大且无标签。从这些海量数据里挖掘出具有重大潜在价值的信息,在推动信息技术融合应用与信息产业高速增长、促进数字经济健康有序发展等方面具有广泛而深远的意义。聚类作为一种无监督学习方法,比逻辑回归、决策树、支持向量机等监督学习方法更适合对无标签数据的挖掘分析,因此,如何精准、高效地对时间序列数据进行聚类成为当前流数据处理领域研究的热点问题。受环境及人为因素影响,时间序列在结构上存在伸缩、漂移等失真问题,导致序列间距离度量的准确度较低。此外,时间序列数据集中含有大量噪声数据,噪声数据的存在极大地影响正常序列的聚类精度与效率。现有聚类方法多直接对结构复杂的时间序列数据聚类,未考虑聚类对象的转化,聚类准确率低、可靠性不足、效率不高且去噪质量差。本文对时间序列聚类问题展开了深入研究,针对现有方法的不足,提出一种面向时间序列的动态矩阵聚类方法,主要研究工作及创新点如下:(1)提出RDS(Representative and Diversifying Sequences)候选集选取及去噪方法。首先,引入互相关距离度量方法,并通过快速傅里叶变换与逆变换进行距离计算,在确保准确性的同时提高计算效率;其次,在序列的r近邻密度和反向近邻数的基础上提出序列近邻评价规则,根据近邻评分的大小对数据集中序列的代表性进行衡量;最后,提出近邻评分的差分计算策略,根据差分极值点确定评分突变位置,进而将数据集划分为三个类别,有效去除数据集中的噪声并构建RDS候选集,为后续的矩阵聚类工作做准备。(2)提出时间序列的动态矩阵聚类方法。首先,根据候选集规模及k参量大小,提出基于质量指标与基于Diversifying Top-K查询的复合最优解筛选策略,实现RDS的高效查找;其次,构建RDS与数据集的动态化距离矩阵,实现聚类对象的转化;最后,提出基于K-means的矩阵聚类方法,对距离矩阵进行聚类,实现时间序列的类别划分。(3)在多个真实数据集上进行大量实验验证,并与目前几种主要的聚类算法进行对比。实验结果表明,本文所提方法在聚类准确率、聚类可靠性、聚类效率、去噪质量等方面具有明显优势,可有效地对时间序列数据进行高质量聚类。
其他文献
在大数据和人工智能盛行的今天,如何高效地在大量的数据中挖掘出用户感兴趣的商品、音乐等项目是推荐系统的主要任务。现如今,用户的个性化推荐在诸多领域都发挥着不可忽视的作用,例如电子商务网站将收集到的众多用户的浏览、购买、评价等历史记录数据加以挖掘、分析进而预测用户可能感兴趣的商品来将其推荐给用户;在线音乐平台同样也可以根据用户收听、收藏、喜爱的音乐类型风格等数据分析用户感兴趣的作品来进行推荐。当前推荐
随着多媒体和互联网技术的融合发展,短视频以其时长短、内容精练等特点获得广大用户的喜爱。自2010年开始,短视频开始逐渐出现在人们的视野当中,短时间内立刻吸引了大量用户的关注,与短视频相关的话题数据持续增长,成为了当下互联网最为主要的流量入口之一。与之相呼应,研发并应用短视频推荐算法成为各大网络平台吸引用户的重要方式。个性化推荐算法就是根据每个用户的基本信息以及社交信息等,推测出每个用户的不同偏好,
随着移动互联和大数据的飞速发展,互联网即将从Web2.0时代迈入Web3.0时代,这意味着互联网每日产生的数据量将不断暴涨,“信息过载”问题愈发严重,用户如何在海量数据中得到想要的信息成为当下亟待解决的难题。推荐技术的发展与普及很大程度上缓解了该难题,通过分析用户历史数据获取其喜好从而进行推荐。籍此,该技术迅速在学术界和工业界盛行并应用于诸多领域。目前,越来越多研究者致力于研发各种优良的推荐算法,
后疫情时代背景下,现代信息技术被广泛应用到各行各业,互联网经济、数字经济和平台经济快速发展,新技术、新业态催生出多种新型就业形态并逐渐繁荣。灵活就业作为新的非标准就业模式,在后疫情时代逐步成为高校毕业生就业的一种重要形式。越来越多的高校毕业生主动选择新型的灵活就业形式投身人力资源市场,加强高校毕业生新业态灵活就业特点和问题的研究,及时出台更有针对性、实效性的灵活就业政策意义重大。
文本分类是自然语言处理领域里的一个重要任务,被广泛用于热点挖掘、舆情、分析、产品分析、电影推荐、金融风险分析、欺诈识别等等。随着Web 2.0时代的来临,面对网上越来越多的文本信息,传统的基于统计学的方法已经无法满足需要。深度学习的出现,使得文本分类任务有了新的处理方法,也使得深层次的神经网络的训练成为了可能。然而,深层网络带来的梯度消失问题会导致网络难以训练。因此,如何训练深层神经网络是当下的研
随着5G、WiFi等网络技术的发展和智能移动设备的普及,基于位置的社交网络(LBSN,Location-based Social Network)已成为人们关注的焦点。兴趣点(Point-of-Interest,POI)推荐作为LBSN领域的一个研究热点,它通过对海量的签到数据进行分析和挖掘,为用户提供个性化的兴趣点推荐。这不仅让POI服务商更加充分理解目标受众,而且为用户自主出行提供更为便利的信
随着互联网的兴起,越来越多的学习者选择通过在线教育平台进行学习。不同于传统的课堂教育由教师主导学习者的学习进程与学习活动,在线教育平台提倡因材施教,即根据学习者的知识水平为学习者提供个性化的教学内容与学习路线,然而学习者的知识掌握程度随学习进度不断变化,因此实时追踪学习者知识掌握程度变化尤为重要。知识追踪任务旨在根据学习者历史学习行为实时追踪学习者知识水平变化,并且预测学习者在未来学习表现。知识追
随着互联网的不断发展,越来越多的网民将社交媒体作为获取信息的主要途径,人们在网络空间中快速、自由地发布信息、社交互动、情感交流。微博作为网络信息传播最具代表性的应用之一,越来越多的网民通过微博来发布、获取和传播信息。微博上蕴含着个人观点的实时评论具有潜在的舆论导向,由此形成网络舆情。然而,网络舆情事件往往是突发的、难以预知的。近年来,对于舆情事件的相关研究层出不穷,现有算法无法高效对网民情感及舆情
直觉模糊知识测度在不确定性问题中有着重要作用,由于直觉模糊集的结构特性,知识测度能够有效弥补直觉模糊熵的不足,更加全面地反映不确定性问题研究过程中产生的模糊性与犹豫性。本文以提高知识测度对复杂问题的解决能力为目标,提出改进HammingHausdorff距离,与理想解法(technique for order preference by similarity to ideal solution,T