论文部分内容阅读
移动通信和传感设备等位置感知技术的发展促使位置数据的规模和价值不断提高,成为了基于位置的服务(Location Based Service,LBS)不断壮大的有力支撑,也是学界和产业界共同关注的宝藏。与此类似,POI(Point Of Interest)作为位置数据的核心要素也受到了越来越多的关注。本文围绕两类典型的位置数据:轨迹数据和签到数据,开展了如下工作。首先,本文研究了从轨迹数据中识别停留点的方法。轨迹数据天然地具有极高的冗余性,而通过停留点识别技术进行去冗余是有效利用轨迹数据的必然选择。针对现有停留点识别方法未考虑轨迹点的时间连续性导致的误识别和仅考虑时间连续性的一个方向导致的识别遗漏,本文设计了一种基于密度的停留点识别方法(Stay Point Identification based on Density,SPID)。SPID不仅考虑了轨迹点的时间空间上的聚集效应,还将轨迹点的时间连续性和方向性纳入考虑。在真实数据集上的实验验证了 SPID在识别能力上优于基准方法。其次,本文研究了停留点序列和签到数据中POI的表示方法。停留点序列在形式和意义上都与签到数据类似,表示核心都是POI,而简单有效的表示POI是利用位置数据的首要工作。分布式表示是一种通用而有效的表示方式,而POI的分布式表示学习,即将POI的信息编码到一个低维连续的向量空间中。本文提出了一个混合模型来学习低维连续的向量形式的POI表示,该混合模型包括:将词向量模型映射到对POI类型特征的学习和将网络表示学习(Network Representation Learning,NRL)模型映射到对POI位置特征的学习。混合模型以无监督的方式将POI信息编码到POI分布式表示中。本文通过实验分析了混合模型中影响POI表示学习的因素来,并且通过两种评价指标分析了 POI表示的质量。最后,通过基于用户的协同过滤的POI推荐分析了POI分布式表示的效果。