基于随机游走模型的Web点击流数据分析

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:lixuelei19890117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以往对点击流数据分析的研究主要集中在用户行为模式分析、信息推荐以及搜索引擎优化等方面,很少有研究从网络科学的角度出发,探究由用户浏览行为所体现的信息之间的关系。  事实上,用户的点击记录不仅仅可以反映用户关注的焦点、行为偏好,用户在不同信息之间的切换还可以反映信息资源之间的关系。这些信息资源可以是不同的网站,也可以是维基百科中的词条、视频网站中的视频资源、博客网站中的博文等。例如,已有学者利用用户在不同学术期刊网站间的点击流数据展示不同研究领域之间的关系,描述社会科学与自然科学的联系。  本文以网站点击流网络与维基百科词条点击流网络为例,对节点之间的流量依赖关系、由用户浏览行为所体现的信息资源之间内容上的相关性进行分析与挖掘,并给出点击流网络的可视化方法。  主要工作包含以下两个方面:  (1)对节点之间流量依赖关系的分析。  本文第三章首先将封闭网络模型拓展为开放流网络模型,使得随机游走模型更接近于用户真实的点击行为。接着,综合考虑节点之间的直接关系与间接关系,提出了点击流网络中节点之间总流量的计算方法Tij,描述节点之间的流量依赖关系, Tij可以理解为当节点i被移出网络时,节点j流量的减少量。  结果表明,将节点之间的总流量Tij与直接流量Fij进行对比分析,可以发现网站潜在的“用户提供者”、挖掘词条之间隐含的联系。同时第三章还提出了节点在整个网站中流量控制上的影响力评价方法Ci,相对于PageRank算法给出了更好的网站排序结果。  (2)对由用户浏览行为所体现的信息资源之间内容上的相关性分析及可视化。  本文的第四章首先给出了用户在各个信息之间跳转的平均距离的定义---流距离,用以描述不同信息资源之间内容的关联性。用户在两个网站间跳转的距离越近,网站之间越有可能包含相关的信息。  接着,基于节点之间的流距离,第四章提出了节点嵌入的可视化方法,将节点嵌入到欧式空间中,使节点之间的欧式距离表示节点之间关系的远近程度。通过这一可视化方法,可以直观地看到节点之间的相互关系,用户流量在各个节点上的分布以及哪些节点在用户流量的传播中起到了关键作用。  结果表明,节点之间距离越近,越具有内容上的相关性。第四章给出了网站点击流网络与维基百科点击流网络的几何表示,还探究了网站点击流网络中用户流量在几何表示中的分布、网站结构的动态变化等问题。  总的来说,本文为 Web点击流网络提供了节点间流量依赖关系、内容关联关系分析与可视化的一般模型和方法。同时,本文中所提出的研究方法还具有较强的可拓展性,可以应用于其他研究领域,如交通网络、疾病传播网络等。
其他文献
交際雙方啟動的語義演變,是一種基於語言使用的觀點,包括“言者啟動的語義演變”和“聽者啟動的語義演變”.兩種語義演變都始於語義創新,在傳播的過程中,語義創新歷經篩選和
群众文化建设属于社会主义事业建设的重要组成部分,可以在为群众提供丰富文化生活的基础上,维系社会和谐稳定发展,当前我国社会文化呈现出多样化的发展特点,群众精神需求与经
“不拘”發生了從作格動詞“拘”的否定到條件句標記的語法化,在此進程中,“不拘”賓語的語義變化、主語的有無以及後續小句出現與否是處於相互影響的動態系統中.一批“不V”
目前被广泛应用的高速公路小标段建设模式在招投标阶段与施工阶段存在一些不足之处,为了避免小标段建设模式中存在的问题,越来越多的省份尝试实行高速公路大标段建设模式。然而
近代漢語語法以近代漢語時期的功能詞和句法結構爲主要研究对象,是漢語歷史語法的一個重要組成部分.近代漢語語法研究也是漢語歷史語法研究的一個重要分支.20世紀40年代,吕叔
期刊
大型建筑施工企业是中国建筑业的重要组成部分。随着时代的发展,高技术的不断涌现,大型建筑施工企业的项目信息管理面临着巨大挑战。如何积极应对这些挑战,提高企业的项目信息管