论文部分内容阅读
随着蜂巢式网络和无线通信技术的快速发展,各种可以实现定位功能的移动设备和基于位置信息的社交网络(Location-based Social Network,LBSN)相继出现并得到了广泛的使用,与此同时,它们也产生了大量与当前位置相关的数据,例如:照片、推特和签到信息等。这些地理数据为我们实现从用户的移动数据中挖掘其潜在的隐含信息提供了一个前所未有的机会,而挖掘用户的移动模式这一任务对兴趣点推荐、运动轨迹识别和个性化出行规划等下游应用而言都是极为重要的。最近,一项称为基于移动数据实现社交关系推理(Social Circle Inference from Mobility data,SCIM)的任务引起了研究学者的广泛关注,该任务的应用场景为:在没有给出任何明确的结构化网络信息的情况下,仅仅依据用户的移动数据推断用户之间的社交关系。现有的推断方法要么需要已知部分社交关系,要么无法对用户之间的隐含关系进行建模,故而存在一定的推理误差。本文针对SCIM任务提出了基于自注意力的社交关系推理模型(SCIMA,SCIM via self-Attention),该模型主要包含用户移动模式挖掘和社交关系推理这两部分。不同于以往直接利用循环神经网络对轨迹进行编码的方法,SCIMA通过自注意力机制对轨迹不同层面的语义信息进行编码,然后序列化地预测当前轨迹对应的多标签集合。然而,模型SCIM在学得签到点嵌入表示时使用的方法为传统的词嵌入技术,该方法只能为每个签到点学得一个固定的嵌入表示向量。为了捕获当前签到点在不同轨迹中的语境信息,本文介绍了一种新的基于上下文感知表示的签到点学习模块,该模块可以自适应地合并循环神经网络中的内部状态,这比现有的社交关系推理方法中使用的上下文无关的签到点嵌入表示模型更有效。在此,我们将改进后的模型称为引入上下文编码的社交关系推断模型(SCIMAC,SCIM via selfAttention and Contextualized-embedding),该模型不仅能更好地识别出相似的移动模式中的语义信息,同时也能有效地缓解推断误差问题。为了对用户标签之间的潜在关联进行建模,SCIMAC模型在推断过程中利用复杂的标签嵌入技术来调整对相关用户的惩罚,从而进一步理解标签空间中用户之间的交互影响。最后,本文在四个公开数据集上分别验证了模型SCIMA和改进后的模型SCIMAC的有效性,本文将上述两个模型与链路预测任务中最先进的方法作对比,模型SCIMA和模型SCIMAC在各个评估指标上的值都取得了一定的提升。相较而言,由于模型SCIMAC在SCIMA的基础上新增了上下文编码和减轻推断误差的操作,故模型SCIMAC的性能提升更为明显。总的来说,基于移动轨迹推断其社交关系这一课题,无论是对商家还是用户个人有关的各种服务来说都有深远的意义,因此,关于该方向的研究在科研及工程领域都有很大的价值。