基于自编码器的旅行同伴挖掘

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ersand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卫星、无线网络和各种定位设备的发展普及,带来了移动对象的海量轨迹数据,轨迹数据挖掘也成为数据挖掘领域新兴的研究方向。轨迹数据富含时空特征信息,挖掘轨迹数据有助于人们了解人员流动趋势、实时交通动向、动物迁徙习性和气候气流变迁等重要知识,并采取相应的措施保证社会正常运行。旅行同伴挖掘是轨迹数据挖掘的一个重要研究分支,其目的是从海量轨迹数据中寻找时间和空间距离都很接近的一组轨迹,而相应的移动对象即被认为是“旅行同伴”。旅行同伴挖掘具有很多应用场景,譬如,挖掘动物旅行同伴有助于研究不同种群的迁徙习惯,挖掘汽车旅行同伴有助于预测交通拥堵情况,挖掘行人旅行同伴有助于商业推广和广告营销等。在轨迹数据挖掘研究兴起之初,旅行同伴挖掘主要采用轨迹模式挖掘算法。这类算法首先根据所研究的问题定义旅行同伴的轨迹模式,然后设计相应的算法从海量数据中挖掘满足该模式的轨迹。模式挖掘算法对数据质量有较高的要求,然而轨迹数据固有的时空噪声干扰、数据采样不均、长度分布各异等特点,为旅行同伴的有效识别带来了诸多挑战。近年来,深度学习技术逐渐被应用于轨迹数据挖掘研究。利用深度神经网络对轨迹数据进行表征学习,然后基于轨迹表征挖掘相应的模式,可以有效规避轨迹数据的上述缺点。尽管如此,现有基于深度学习的轨迹挖掘算法仍然没有很好解决旅行同伴挖掘的挑战。首先,现有算法往往只关注轨迹在空间维度的相似性,忽略了时间维度的信息,因此并不能直接应用于旅行同伴挖掘;其次,轨迹数据中通常没有旅行同伴标签,因此无法采用有监督训练的方式学习轨迹表征。本文基于深度学习算法,针对上述两个挑战开展研究,提出基于自编码器的旅行同伴挖掘方法,并通过大量实验验证提出方法的有效性。本文的主要贡献总结如下:●本文为了学得高质量的轨迹表征,提出了一种基于双自编码器的旅行同伴挖掘模型,即ATTN-MEAN。ATTN-MEAN利用双LSTM自编码器的结构,以及Sort-Tile-Recursive算法的帮助,通过设计重构损失和相似度损失的方式来学得高质量的轨迹表征。学到的轨迹表征既包含轨迹的自身信息也融入了旅行同伴的信息,从而使得旅行同伴之间的轨迹表征相似度较高,而非旅行同伴之间的相似度较低。●提出了一种基于位置编码、图卷积网络来分别表征时间、兴趣点的方法,帮助模型更好地区分空间距离相近、时间距离相远的轨迹。本文受到位置编码的启发,构建所有轨迹点所跨越的时间的全局位置编码(以秒为粒度)。使得落在同一个网格中但采样时间不同的轨迹点能够获得具有区分度的轨迹表征。此外,本文仍利用图卷积神经网络训练得到轨迹点附近的兴趣点的表征信息,来进一步增加空间距离相近的不同轨迹点的表征之间的区分度。实验证明该设计可以使得表征的聚类效果大大提升。●利用DBSCAN对轨迹表征进行聚类来挖掘旅行同伴,并利用不同的指标、敏感度分析和消融实验,证明了模型以及不同模块的有效性。在指标衡量上,本文从内部和外部两个方面对聚类的结果进行实验分析。内部的指标采用了戴维斯堡丁索引值、轮廓系数来判断轨迹表征之间的凝聚度和分散程度;外部的指标则采用了加权均熵,根据构造的标签,来衡量聚类结果的纯度。与此同时,本文进行了多项敏感度实验来探讨Sort-Tile-Recursive算法中最小边界矩形(MBR)的容量大小设定、从MBR中抽取小批次送入ATTN-MEAN的批次大小设定以及位置编码对于轨迹表征的贡献与有效性。
其他文献
随着经济和科技的不断发展,目标检测技术也得到了长足的进步。常用的目标检测算法是利用目标图像与背景图像相减得到目标的区域,目标检测区域光照强度以及目标是否有遮挡等因素都会影响目标检测结果。检测出来的目标质量会对目标的识别、跟踪以及视频监控等效果产生影响。当摄像头处于低照度或者低能见度的情况时,例如雾天、雨天、夜晚等情况。传统目标检测算法存在检测精度较低,检测速度慢,目标漏检率高等问题。因此,针对上述
基于稀疏低秩表示的子空间聚类是有效处理和分析图像视频数据的重要技术,己广泛应用于机器学习和计算机视觉等领域。然而,对于序列数据,有效挖掘其时空信息是子空间聚类的一个重要挑战。本文从序列数据的类内样本相似性和类间样本差异性等特点出发,提出三种序列子空间聚类模型,具体如下:1.提出基于l1范数时序图的鲁棒序列子空间聚类。首先设计一种l1范数时序图对序列数据的时序信息进行编码,该时序图利用样本相关权值增
Sr2RuO4超导体是一种和铜氧化物La2CuO4结构相同的超导材料,并且很有可能是手征p波超导体,但是关于Sr2RuO4的配对对称性问题仍然存在广泛争议。自旋极化中子散射、μ子自旋弛豫、早期的核磁共振等实验表明Sr2RuO4是手征p波三重态配对,而在比热、超流密度、热导率等实验中又观察到能隙有节点,即d波的典型特征。在本文中,我们使用泛函重整化群(FRG)方法研究了Sr2RuO4的三轨道模型,并
超级电容器是一种能源转换和储存器,以其充放电速率快,循环寿命长,安全性高等特点,已受到越来越多研究者们的关注。炭材料因其比表面积大、导电性好而被广泛应用于超级电容器,但是单纯的炭材料应用在超级电容器时,电容性能不佳,因此研究出高电容性能的炭材料势在必行。由于氮原子的高电负性和良好的炭骨架相容性,氮掺杂炭材料具有良好的电化学性能。然而,在高温条件下炭材料中的含氮原子官能团易分解,制得的炭材料氮含量较
随着某试验需求的日益提高,现有的试验装置已无法满足实验需求。研制一套与某试验相适应的某试验装置,已经成为某试验的核心问题之一。本文在原有试验装置六自由度机构的基础上,重新改造并优化设计了一套某试验装置六自由度机构。并对装置的运动学、动力学、静态误差及振动误差方面进行研究。首先,本文介绍了原六自由度机构结构。根据某试验装置的技术指标要求,开展了原机构的强度及刚度分析。根据分析结果辨识出Z轴立板和X轴
针对椭圆型MEMS方程Δu=λ|x|α/up,x∈R2\{0}(0.1)其中λ>0,α>-2,p>0,本文研究了其满足u(0)=0的非负破裂解在全平面R2上的性态.首先,针对不同的(α,p),对稳态方程按照是否仅有平凡解进行了分类,并证明了方程(0.1)的解在原点和无穷远处分别收敛到稳态方程的某个解.从而,本文完成了破裂解关于(α,p)的渐近性态分类:如果该解在原点(或无穷远)处收敛到平凡解,那么
针对一类具有外部扰动的非线性系统,本文提出了一种自适应模糊跟踪控制方法.首先,利用模糊逻辑系统逼近系统未知的非线性函数,并设计了一个模糊状态观测器来估计系统的不可测状态.其次,通过指定性能函数,使系统的跟踪误差能够约束在指定范围内.然后,利用Backsteping方法结合包含对数函数的Lyapunov泛函,设计了一个基于事件触发条件的自适应模糊控制器.基于Lyapunov稳定性理论和tanh函数的
水稻是重要的粮食作物,世界上超过一半的人口以稻米为主粮;与其他粮食作物相比,水稻能吸收和积累更多的镉,降低稻米中的镉含量是保证食物安全的重要措施。我国南方不同程度的镉污染稻田占有较大比重,镉污染稻米事件时有发生,选育水稻镉低积累品种是水稻育种的重要目标之一。因此,发掘稻米镉低积累材料和相关基因是选育低镉积累品种的基础。本实验利用生育期和株高相当的两个亲本(R3551和R498)构建的重组自交系(R
日粮纤维是改善母猪繁殖性能及其后代生长性能的重要营养素。课题组及相关文章研究表明,妊娠期提高纤维摄入量,可提高仔猪断奶重和母猪泌乳期采食量,缩短产程。但仍有研究发现,妊娠期饲粮添加纤维对母猪繁殖性能无显著影响。造成结果不一致的原因可能是由于纤维添加类型的不同。不同纤维原料的不可溶性纤维(ISF)和可溶性纤维(SF)的含量不同,导致饲粮中的ISF/SF比例存在巨大的差异。研究证实,饲粮中的ISF/S
文本转SQL(Text-to-SQL)是一项将语句转换为SQL查询的任务,该任务是自然语言处理中语义分析子领域的一个子任务。本文主要关注上下文相关的跨域text-to-SQL任务,该任务要求模型在训练集和验证集的数据库完全不一致的情况下能够依赖对话历史信息和当前语句生成对应的SQL查询。本文针对上下文相关的跨域text-to-SQL任务首先提出了基本上下文相关的序列到序列模型BCSQL。BCSQL