论文部分内容阅读
随着互联网的发展和智能终端的普及,互联网逐渐融入旅游业,改变着传统旅游商业模式和游客的旅游行为习惯。旅游行为和旅游活动不仅直接体现了游客的旅游特征,同时反应了旅游景点的情况。在互联网大数据背景下,利用群智感知技术根据交互信息对游客行为和旅游活动进行挖掘和识别,发现游客的潜在需求,已经成为旅游大数据技术与应用的新方向。本文主要完成了以下工作:(1)在游客行为特征挖掘方面,采用了基于HITS(Hyperlink-Induced Topic Search)模型的算法挖掘出游客的兴趣景点。提出了卡方检验和信息增益结合的特征选择方法(CI),对旅游主题进行分类,分类的准确率与单一特征选择方法相比平均提高了 3.8%。提出了游客行为模式挖掘算法(HCPFS),根据游客的路径轨迹和访问时间相似性进行层次聚类,识别游客行为模式,提高了行为模式挖掘的准确性。(2)提出了一种基于改进的知网语义相似度计算与点互信息计算融合的词语情感值计算算法(HP),解决了知网未登录词极性难以判断和本地语料库中词频低的问题,相比单一情感分析方法正面情感准确率平均提升了 6%,负面情感准确率平均提升了 5.3%。提出了基于游客特征的重游行为预测算法(RTBF_LA),根据游客的特征建立重游行为预测模型,克服了 Logistic过拟合问题,与Logistic相比预测准确率提升了近8%。(3)提出了基于微博的热点事件挖掘算法(LVCS),将文本语义相似度和特征词相似度相结合,采用谱聚类方法对文本进行聚类,可以有效识别歧义句。该算法与传统的基于特征词相似性的挖掘算法相比,耗费代价平均降低了 28.1%。提出了基于热点事件的旅游活动识别算法(TAR_KA),对景点附近热点事件微博文本进行分类,识别旅游热点活动。该算法的平均准确率和平均F1值比KNN算法分别提高了 13.5%和9.2%,提高了有效特征词识别的准确度。(4)设计和开发了基于群智感知的游客行为挖掘和旅游活动识别系统。包括游客行为挖掘模块、游客重游行为预测模块、旅游活动识别模块等。该系统具有较好的容错性和准确性,能够基本满足游客行为挖掘与旅游活动识别的要求。