基于改进PageRank算法的网页排序问题研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:limanyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今互联网信息技术迅猛发展,似乎在一夜之间,大数据(Big Data)变成一个最流行的词汇。用户在利用搜索引擎便捷获取各类信息的同时,也面临着如何从海量数据中剔除那些影响信息检索效率及准确度的冗余信息的问题。在一般情况下,鉴于用户只关注返回目标网页的前几页,因此对搜索结果进行网页排序,改善搜索质量,提高用户满意度显得尤为重要。对于网页,除了文本信息,页面间的链接结构也是人们获取有用信息的重要途径。经典的网页排序算法---Page Rank正是使用网页间的链接结构对各网页的权重值进行迭代计算,很大程度上提高了对网页权重计算的精准度。但是Page Rank算法仍存在许多待研究及待突破的不足,开展相关研究具有重要应用价值。本文首先阐述了基于Map Reduce的Page Rank算法的研究背景和意义,然后对该算法的国内外研究现状进行了分析总结。在此基础上,着重分析出算法中影响性能和准确度的关键因素,即迭代次数和“主题漂移”,进而提出了改进算法:子图估算Page Rank网页排序算法及个性化智能推荐的权值分配方法。然后对所改进算法进行理论分析,包括算法的迭代次数,时间复杂度和准确性。最后,在Map Reduce编程模型上实现Page Rank算法及其改进算法,并通过实验数据对比分析证明算法的合理性、有效性。与传统算法相比,改进后的算法时间复杂度低,迭代次数少,准确度较高。
其他文献
无线传感器网络(wireless sensor network,简称WSN)是计算机科学一个重要的研究领域。由于无线传感器网络布散节点数量庞大、监测区域环境限制及节点自身构造等因素,布散后节点
LR可视性问题是计算几何领域的重要研究课题之一。通过对LR可视多边形特性的研究,能够得到求解计算几何经典问题的有效算法。因此,对于LR可视多边形的研究,不仅具有重大的理
安卓系统内嵌了SSL库来进行加密传输,开发者可以直接使用这些库在程序中与服务器建立HTTPS连接,但是在实现这些功能时,开发者错误的使用了这些库而破坏了HTTPS的安全性,使程
本文对LTE系统中ASN.1编解码的设计与实现进行了研究。第三代移动通信技术(3G)日益成熟,已在多个领域实现商用。而全球微波接入互操作(World interoperability for Microwave
手是人类最灵活的肢体之一,而手势是最丰富最具有表现能力的肢体语言。近年来增强现实、体感游戏等计算机应用飞速发展,基于鼠标键盘等传统人机交互系统存在用户使用区域固定
网络技术的飞速发展,使得以软交换为核心的下一代网络成为目前国内外网络界研究的热点,各个高等院校通信类专业纷纷开设软交换相关的课程,为了使学生充分领悟和理解软交换的概念
测试是软件开发生命周期中关键的阶段,是保证软件质量的必不可少的手段。软件测试主要依靠选定和执行一组测试用例(称为测试套件),并通过观察被测系统的执行输出结果来尽可能
社会关系广泛存在于现实生活中,它们可以抽象成各式各样的社会网络。近些年来,研究者们发现社会网络中存在的社团结构是大规模网络分析和挖掘的基础,对于分析社会系统的组织
目前,基于内容的垃圾邮件过滤方法主要采用统计分析法,此类方法对垃圾邮件内容所表达的思想缺乏精准的定量描述,研究垃圾邮件内容所表达思想的描述形式对垃圾邮件的准确识别
自上世纪八十年代以来,织物变形的模拟仿真一直是计算机图形学领域内的一个研究热点。弹簧-质子模型因其原理简单,易于实现,在织物仿真中得到了比较广泛的应用,但是这种模型