论文部分内容阅读
近年来,随着社交网络的不断发展,越来越多的用户利用各种社交网络来分享自己对某一事物,某一兴趣点的喜好。大量用户通过微信,Foursquare,新浪微博,大众点评等各种社交媒体对所到兴趣点进行签到、评论、分享等。与此同时智能设备的大量普及会让更多的用户通过社交应用APP签到,对其他社交用户发布的各种感兴趣的内容信息进行查看、点赞、评论等。随着用户量的增加,社交平台所存储的用户签到数据量也成指数增长,通过这些数据预测用户的下一兴趣点也越来越重要。提前对用户将要访问的兴趣点进行预测,对于用户来说不仅可以享受到越来越个性化的服务,对商家来说,也可以有针对性的服务客户,取得良好的收益。本文通过利用用户签到兴趣点的评论信息对社交网络中的兴趣点预测进行了相关研究,主要的成果如下:1.本文通过对用户签到数据的研究,提出了一种基于用户签到数据中评论信息的兴趣点预测模型。该模型首先根据用户的历史签到数据,利用张量分解提取数据集中促使用户进行该次访问的意图,接着利用时间和兴趣点特征,将每个用户的签到兴趣点进行分类。将用户的签到均分类为一个意图,然后利用隐马尔科夫模型对用户下一步签到的可能意图进行预测。同时考虑用户连续签到兴趣点间的空间距离因素,缩小预测范围;进一步考虑该意图下,将用户自身的评论信息和范围内的同样意图的兴趣点下的评论信息利用主题模型提取主题偏好,得到二者的主题词分布,利用JS距离求得两个文档间的主题相似性,得到top-k的兴趣点预测结果。实验结果表明,本论文提出的策略是有效的,提高了预测准确率和数据的可扩展性。2.为了解决兴趣点预测中数据量越来越大导致主题模型运行结果缓慢的问题,本文提出了利用spark大数据平台进行分布式计算的方法。相对于单机运算,并行化运算可以提高运行效率。