论文部分内容阅读
人文社会科学通过人类行为来揭示社会现象和经济现象背后的规律。但受到网络应用不断深入的影响,人类在线行为越来越复杂,其背后隐藏的信息也越来越难以发掘。大数据技术的出现,为这一问题提供了新的解决思路。在线用户行为是人类行为在互联网上的表现方式。通过对在线用户行为数据的收集和分析,可以为政府及企业在决策等问题上提供较为准确的数据支撑,同时也可以为科研人员在研究人类行为时提供理论支撑。本文通过在线用户的点击流数据,结合在线用户的特征以及行为,研究了匿名用户识别问题与用户下一步点击行为预测问题,对影响识别及预测准确率的因素进行了分析。主要的研究内容包括以下两个方面:(1)基于多维轨迹集的匿名用户识别。通过实验验证了在用户的软件点击流数据中包含了用户的行为规律,对比网络浏览数据识别准确率有所提高。提出了一种基于关联规则改进的(Anonymous User Identification,AUI)算法,通过筛选异常数据和减少扫描数据集的次数,降低算法运行的时间成本。同时提出了一种多维轨迹集模型(Multidimensional Trajectory Set,MTS),通过AUI关联算法和向量化方法为每个用户建立独特的多维轨迹集,并结合最大熵自然语言处理方法识别用户。实验表明,MTS模型比基于用户文档的(Support-Based Profiling,SP)算法准确率平均提高5.09%,比C4.5决策树的准确率平均提高10.6%。(2)基于强化学习的用户点击行为预测模型。通过点击流网络构建基准奖励矩阵B-Reward用于分析总体点击行为规律,并通过频繁项集构建权重奖励矩阵W_i-Reward用于分析在特定点击链中的行为规律。结合两个矩阵提出(Combination Matrix Q-Learning,CMQ)预测算法。同时提出了一种基于强化学习的用户点击行为预测模型(Reinforcement Learning-Prediction,RL-P),通过分析影响预测准确率的参数并结合CMQ算法预测用户在当前状态时的下一步点击行为。实验表明,RL-P模型的平均预测准确率为88.28%。随着已知历史点击序列的增加,预测模型的准确率也随之增加,准确率平均提升2.61%。