面向大规模时空轨迹数据的序列模式挖掘及其并行化方法研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:anquanke123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于位置服务技术的进步,大规模的轨迹数据得以被采集。轨迹数据蕴含各种移动对象在历史维度的移动趋势和状态,为我们理解移动个体行为特征以及城市交通流变化提供了相应的信息。针对城市交通系统中的轨迹数据,序列模式挖掘是一种可以从中发现内在规律、抽取有价值信息的重要手段。传统的基于先验的挖掘模型容易理解实现,但是对计算资源要求高;基于前缀投影的分治模型收敛速度快,但是对长序列和序列种类多的数据支持不友好;基于深度学习的挖掘模型对数据特征学习能力强,但是算法训练时间长、模式的可解释性差。以出租车轨迹数据为基础,提出了一种基于列式结构辅助索引模型的时空轨迹序列模式挖掘算法。在此基础上为了解决大规模数据挖掘的问题,将轨迹数据进行合理分区,采用分布式计算引擎并行化进行模式挖掘。最后,基于挖掘得到的时空轨迹序列模式,提出了一种涵盖城市地区出租车司机经验和偏好的协同路径推荐算法,为用户提供优化的路径推荐服务。具体研究工作如下:(1)提出一种轨迹编码模型。为最大化地保留轨迹数据信息,同时方便后续研究的开展,引入一种轨迹编码模型,对原始GPS轨迹数据进行清洗和特征分析,将经纬度坐标点数据转换为以路段序列表达的轨迹数据,同时将原始轨迹的速度、时间和所属车牌号记录信息进行编码嵌入。(2)提出了一种列式结构辅助索引模型,并基于此实现了一种时空轨迹序列模式挖掘算法SPDTI。算法通过双辅助索引记录了轨迹数据列式结构中的事务信息及路段时序关系,提升了存储结构的紧凑性;基于前缀投影模型,通过双辅助索引进行条件连接来产生序列模式,避免了数据集的重复扫描;设计了邻接路段修剪策略,可以限制投影集的无效构造和冗余模式的产生;针对大规模数据集模式挖掘中支持度阈值确定困难的问题,设计了支持度评估模型,可以有效预测支持度的取值范围。通过实验证明,相对于传统序列模式算法,SPDTI算法的时间和空间性能更优。(3)为了支持大规模轨迹数据的序列模式挖掘,基于Spark Dataset分布式数据模型,将SPDTI算法并行改进,提出了D-SPDTI算法。针对数据倾斜问题,提出了一种并查集负载均衡数据分区策略,改善了所提方法在分布式环境下的执行效率。(4)基于时空轨迹序列模式,提出了一种涵盖城市地区出租车司机经验和偏好的协同路径推荐方法。该方法由协同经验路径发现模型(CEPD)和经验驱动网络模型(EDN)组成。CEPD阶段进行区域簇到区域簇的路段检索,捕获协同经验等级高且距离较优的top-n轨迹序列模式。EDN阶段针对给定的O-D条件迭代生成经验路径网络来支持路径推荐。在实验中,采用灵敏度分析来选择最优参数。实验证明,推荐路径比最短路径和最快路径更可靠,在行车距离、行车时间和平均速度等方面更具有优势。SPDTI方法中的列式结构和索引思想为轨迹序列模式挖掘提供了新思路,其分布式模型可以应用到大规模轨迹数据的模式挖掘工作中。基于轨迹序列模式的协同路径推荐模型在路径热度和可靠性的平衡计算中具有参考价值,该模型对路径规划领域具有重要意义。
其他文献
大型集装箱船遭遇高海况时,舱口角隅处应力水平可能接近甚至超过材料屈服极限,因此循环极端载荷作用下的舱口角隅疲劳损伤可视为高低周复合疲劳问题。本文采用一种高低周复合疲劳寿命预报模型对某大型集装箱船的舱口角隅进行疲劳寿命预报。首先建立全船有限元模型和水动力模型,给出不同浪向角及波浪频率下舱口角隅节点的热点应力传递函数,然后采用北大西洋波浪散布图得到节点的应力范围,对其中超过80%屈服应力的海况,通过N
期刊
传统喷涂作业一直以来都存在工作环境恶劣、工作任务繁重复杂、喷涂效率低下等问题,随着智能机器人产业的发展,有关机器人在喷涂行业应用的研究也越来越多。目前的喷涂机器人大多只能胜任型号单一、生产量大的产品的喷涂工作,无法在定制化需求较高的行业得到很好的应用。因此,本课题以广东顺德迪峰机械有限公司的板件自动喷涂项目为背景,设计了一套基于3D激光扫描的机器人涂装生产线智能控制系统。本课题设计的系统功能主要包
学位
目的:分析血清抗缪勒氏管激素(AMH)和同型半胱氨酸(Hcy)水平诊断多囊卵巢综合征(PCOS)价值及与不孕治疗结局关系。方法:选择北京市垂杨柳医院和内蒙古自治区人民医院2021年9月-2022年3月收治的81例PCOS和卵巢功能减退(DOR)不孕患者临床资料,其中PCOS 42例为PCOS组,DOR 39例为DOR组,选择健康体检女性40例为对照组;比较3组血清AMH和Hcy水平,采用logis
期刊
为了减少损伤识别所需传感器数量,降低监测系统造价及海量数据的处理成本,提出了基于单传感器数据结合格拉姆角场(Gramian angular field,简称GAF)和卷积神经网络(convolutional neural networks,简称CNN)的结构损伤识别方法。采用GAF理论将原始振动信号分别转换为格拉姆角和场(Gramian angular summation field,简称GASF
期刊
以按疾病诊断相关分组(DRG)支付方式改革为背景,探讨医保部门如何利用信息技术实现对医疗机构的精细化监测和管理,以提高医疗服务质量和效率,控制医疗费用的不合理增长。提出了以“精细化理论”为基础的医保DRG“精密监测—精细化监管—精准治理”三阶段;以南京“医保高铁”为例,构建DRG精细化监管与治理模型框架,分析其监测要素和治理要素,最后提出了落地建议,包括医保牵头横向协同、建立内外结合的服务与费用评
期刊
子宫内膜炎是牛养殖期间的常发病和高发病,被称为4大繁殖障碍疾病具,有很高的发病率。发生后会影响繁殖器官的正常生长和各种繁殖激素的分泌代谢,最终表现为繁殖母牛发情不稳定,发情不规律,隐性发情或者停止发行,使繁殖母牛的利用率受到严重影响。子宫内膜炎出现后,如果不能及时采取有效措施进行治疗,严重的造成繁殖母牛失去种用性能,还会引发慢性子宫内膜炎的发生,患病牛不能正常发情,养殖效益变差。该文主要论述牛子宫
期刊
2023年10月27日第十九届北京激光技术前沿论坛在北京工业大学知新园学术报告厅隆重开幕,本次学术论坛由北京光学学会与中国光学光电子行业协会、中国光学学会激光加工专业委员会、固体激光技术重点实验室、北京工业大学科协、北京工业大学理学部联合主办,旨在把握激光技术发展前沿和热点、共享研究成果,促进我国激光光电子技术的科技创新与合作,为与会者搭建高水平交流平台。本刊从论坛选取了北京工业大学黄婷研究员、中
期刊
卵巢功能不全(premature ovarian insufficiency,POI)又称“卵巢功能低下”,其发病率高达1%~5%,近年来还呈现不断上升的趋势,已经严重影响女性的身心健康及生活质量。目前,关于POI的发病原因及机制尚不明确,模型构建方法与应用也较混乱,且绝大多数模型在针对性、稳定性等方面存在一定不足。这也极大的限制了POI的相关研究及其临床诊断和治疗。因此本文对POI的病因病机与P
期刊
近年来随着制造业和计算机技术的不断发展,3D扫描技术是获取被测物体表面形貌特征的重要手段之一,其非接触性、高精度以及高效率等特点成为逆向建模领域的主流趋势,被广泛应用于文物保护、工业测量以及医疗诊断等诸多领域。工业界传统的方式是将线激光轮廓仪与单自由度位移平台结合,用于对物体表面进行检测和测量,但工作空间和位姿都有着较大的限制。而基于六轴机械臂的3D扫描系统极大提高了测量系统的灵活性,可以更加全面
学位
目的:检测抗缪勒氏管激素(AMH)、黄体生成素(LH)/促卵泡激素(FSH)在多囊卵巢综合征患者血清中表达水平,探讨阴道彩超联合血清AMH、LH/FSH对多囊卵巢综合征的诊断价值。方法:选取2019年6月—2022年6月在本院妇科门诊及中大医院妇科门诊就诊的多囊卵巢综合征患者95例作为病例组,体检健康女性68例作为对照组,测定血清AMH、LH及FSH水平,阴道彩超检查卵巢体积、卵泡数目和子宫内膜厚
期刊