论文部分内容阅读
轨迹聚类是将相似的轨迹分组,是分析运动轨迹数据的一项非常重要的技术。实际上,大多数聚类算法都面临两个具有挑战性问题,即选取合适的轨迹间距离度量方法和确定最优的聚类个数。凝聚式的信息瓶颈算法通过引入特征空间,利用特征空间及聚类结果之间互信息最大化,同时保证聚类结果及原始轨迹数据集之间互信息最小化这一“瓶颈”,达到获得最优聚类个数的聚类结果的目标。本文利用轨迹的形状特征进行核密度估计,建立起原始轨迹数据集、特征空间及聚类结果之间的信息通道,对运动轨迹进行基于凝聚式信息瓶颈算法的聚类分析,而且,本文提出了对凝聚式信息瓶颈算法的改进,即具有异常的凝聚式信息瓶颈算法,来处理轨迹数据集中包含异常数据的情况。通过大量在合成数据、模拟数据和真实数据上的实验,验证本文提出聚类算法应对轨迹数据集中包含异常数据的聚类有效性,而且与广泛应用的聚类算法相比,本文提出的聚类算法的聚类性能更好。毫无疑问,轨迹聚类结果的可视化极为重要,且已有很多相关研究成果。然而,关于轨迹聚类过程的可视化这一同样重要的研究方向却甚少有人涉及。本文提出一个新颖的过程可视化应用工具,旨在展示出本文提出的基于抽象的信息论工具的具有异常的凝聚式信息瓶颈算法的全过程,帮助用户更生动清晰地理解聚类算法的核心。通过结合可视化展示和良好的用户交互性,我们的工具将具有异常的凝聚式信息瓶颈算法的迭代过程及关键计算环节相对应的结果和最终的聚类结果都一一体现。本文通过在真实轨迹数据集上的实验结果说明可视化工具对于轨迹分析的高效性。