万维网搜索算法的研究——从PageRank算法到WeightedIndegree算法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lg0768
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PageRank 算法是目前被广泛应用的一种度量网页重要性的方法,它根据网页之间的链接结构来给每个网页打分。从数学的角度来解释,PageRank可以被看作是一个马尔可夫随机游走模型,依据网页下一步的链接信息计算网页的转移概率。用马氏链的平稳分布作为最终的Rank值给网页排序。 受计算机象棋对弈算法设计中,一个很成功的策略“多看几步”的启发,我们改进和推广了经典的PageRank算法,提出了N-step PageRank算法,它在计算网页的转移概率时利用了网页N步的链接信息。特别地,我们假定,如果网上冲浪者知道每个网页的N步内的链接情况,那么在选择下一步要浏览的网页时他/她就可做出更好的选择。经典PageRank算法是N-step PageRank算法N=1时的特殊情形。TREC标准数据集上的实验表明,N-step PageRank算法能够有效提高网页搜索的精确度,MAP指标比经典的PageRank的提高超过15%. 经典PageRank算法和N-step PageRank算法都是利用平稳分布来度量网页的重要性。由于计算平稳分布实际上是计算矩阵的特征向量,计算复杂度很高,在万维网搜索时海量数据信息使得计算的时间开销很大。为了降低计算的复杂度,我们提出了一种更为简单有效的链接分析方法——WeightedIndegree算法,与PageRank算法不同,它直接利用加权的入度给网页排序。TREC标准数据集上的实验表明,WeightedIndegree算法能够大大降低算法的复杂性,同时能有效地提高网页搜索的精确度,MAP指标比经典的PageRank的提高超过15%.
其他文献
率依赖理论是近几年来生物数学界提出的一个重要理论,得到了很多学者的关注。本论文主要研究被捕食者具有阶段结构和具有第二类功能反应函数的率依赖捕食—被捕食系统正平衡
非线性问题是自然科学及工程领域的普遍问题,因其能很好地解释自然界中诸多现象,一直以来受到大量国内外科研工作者的广泛关注. p-Kirchhoff方程作为一类非常重要的非线性方程,
广义迎风差分方法,结合了有限差分方法和有限元方法的特点,与当前求解计算流体力学常用的有限体积数值解法相接近.本文第一部分即引言主要介绍了浅水方程的相关内容及其发展状
设On是有限链{1
本文考虑了具有非线性发病率及分布时滞的离散SIRS模型的持久性和全局稳定性,并对其进行了数值仿真.利用差分不等式理论得到了模型持久性的充分条件.当f(x,y)= βxG(y)时,对
本文利用Jaulent-Miodek方程初值解的渐进估计,构造了一个整函数ω(λ),其零点集合与带有非局部边界条件的Jaulcnt-Miodck特征值问题的特征值集重合,借助于一个积分恒等式采
本文主要研究非线性系统的鲁棒镇定问题。首先考虑一类多输入polytopic非线性系统。通过引入鲁棒控制Lyapunov函数(RCLF)及空间划分法,给出了该系统可镇定的一个充分条件并构
本文使用Glaunberman和 Solomon在2012年对任意有限p-群P定义的两个特征子群和 D*e(P),给出了任意有限群G为p-幂零群的一个新判别准则,即证明了对奇素数p,则G是p-幂零群当且仅
互补问题广泛应用于经济、物理等领域。本文主要讨论一类弱非线性互补问题的快速迭代算法。首先利变量代换技巧,将弱非线性互补问题转化为一类与其等价的不动点方程组;再将模
重尾分布下的破产概率问题研究是近来风险理论研究领域的一个热点话题,本文从重尾的角度出发对各风险模型的破产概率进行了研究.主要内容为:  利用已有的对经典风险模型的研究