论文部分内容阅读
船舶状态数据中包含了大量有重要价值的信息,针对船舶状态数据的数据挖掘工作可以为智慧水运的发展做出有力支持。然而这些数据中存在大量的问题数据,在挖掘之前对这些问题数据进行清洗和修复是必不可少的步骤。现有的数据清洗和修复方法如果直接应用到船舶状态数据中,效果并不理想。为保证数据清洗和修复工作的精确性,每一种问题数据都需要制定特定的方法来进行清洗或修复。基于此,本文将重点研究目前船舶状态数据中对数据挖掘工作影响最为严重的两类问题,即重复问题以及轨迹数据的缺失问题。本文的主要研究工作如下:(1)针对现有的相似重复数据检测算法-SNM算法(Sorted-Neighborhood Method,SNM)检测效率低的问题,提出一种改进的滑动窗口策略,然后结合基于Top-K的过滤策略来提高检测效率。改进的滑动窗口策略即滑动窗口大小动态可变策略,窗口大小可以根据检测的情况随时改变,既减少不必要的比较,又减少漏配现象;基于Top-K的过滤策略使不满足条件的数据提前结束比较,大大缩短检测时间。通过对比实验验证了本文的改进算法在检测效率上要优于其他算法。(2)针对由于字段权重设置主观性过强导致SNM算法检测精确度低的问题,提出一种改进的字段权重计算方法。改进方法综合主观经验较强的等级法和客观性的统计法来计算字段的权重,使字段权重的设置更加科学合理,进而有助于提高数据相似度计算的精确度。同时,改进的滑动窗口策略也有助于算法检测精确度的提升。通过对比实验验证了本文的改进算法在查全率,查准率等评价指标上均优于其他算法。(3)针对现有的船舶轨迹缺失数据修复算法修复精确度低的问题,首先解决了由轨迹数据中的错误数据引起的伪连续问题,然后提出一种针对船舶轨迹缺失数据的修复算法。首先构建船舶运动状态矢量模型,将船舶的空间位置与时间联系起来,然后基于多项式插值的思想,构建船舶空间位置的插值函数,充分结合已有的船舶信息来优化参数,以实现对轨迹缺失数据的精确修复。通过对比实验验证了本文的修复算法在修复精确度上要优于其他算法。