论文部分内容阅读
以往对点击流数据分析的研究主要集中在用户行为模式分析、信息推荐以及搜索引擎优化等方面,很少有研究从网络科学的角度出发,探究由用户浏览行为所体现的信息之间的关系。 事实上,用户的点击记录不仅仅可以反映用户关注的焦点、行为偏好,用户在不同信息之间的切换还可以反映信息资源之间的关系。这些信息资源可以是不同的网站,也可以是维基百科中的词条、视频网站中的视频资源、博客网站中的博文等。例如,已有学者利用用户在不同学术期刊网站间的点击流数据展示不同研究领域之间的关系,描述社会科学与自然科学的联系。 本文以网站点击流网络与维基百科词条点击流网络为例,对节点之间的流量依赖关系、由用户浏览行为所体现的信息资源之间内容上的相关性进行分析与挖掘,并给出点击流网络的可视化方法。 主要工作包含以下两个方面: (1)对节点之间流量依赖关系的分析。 本文第三章首先将封闭网络模型拓展为开放流网络模型,使得随机游走模型更接近于用户真实的点击行为。接着,综合考虑节点之间的直接关系与间接关系,提出了点击流网络中节点之间总流量的计算方法Tij,描述节点之间的流量依赖关系, Tij可以理解为当节点i被移出网络时,节点j流量的减少量。 结果表明,将节点之间的总流量Tij与直接流量Fij进行对比分析,可以发现网站潜在的“用户提供者”、挖掘词条之间隐含的联系。同时第三章还提出了节点在整个网站中流量控制上的影响力评价方法Ci,相对于PageRank算法给出了更好的网站排序结果。 (2)对由用户浏览行为所体现的信息资源之间内容上的相关性分析及可视化。 本文的第四章首先给出了用户在各个信息之间跳转的平均距离的定义---流距离,用以描述不同信息资源之间内容的关联性。用户在两个网站间跳转的距离越近,网站之间越有可能包含相关的信息。 接着,基于节点之间的流距离,第四章提出了节点嵌入的可视化方法,将节点嵌入到欧式空间中,使节点之间的欧式距离表示节点之间关系的远近程度。通过这一可视化方法,可以直观地看到节点之间的相互关系,用户流量在各个节点上的分布以及哪些节点在用户流量的传播中起到了关键作用。 结果表明,节点之间距离越近,越具有内容上的相关性。第四章给出了网站点击流网络与维基百科点击流网络的几何表示,还探究了网站点击流网络中用户流量在几何表示中的分布、网站结构的动态变化等问题。 总的来说,本文为 Web点击流网络提供了节点间流量依赖关系、内容关联关系分析与可视化的一般模型和方法。同时,本文中所提出的研究方法还具有较强的可拓展性,可以应用于其他研究领域,如交通网络、疾病传播网络等。