Web Graph的表示与压缩

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jxncjwt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web Graph是互联网上网页之间的一个宏观抽象,其节点是互联网上的网页,有向边为节点之间的超链接。由于互联网上网页数量庞大,因此存储Web Graph时,需要占用大量的空间,而且在Web Graph上进行某些相关计算时,有限的内存严重限制了算法的效率,这些都导致Web Graph的压缩成为了近几年研究的热点问题之一。本文通过研究Web Graph的几个特性,分析了网页链接之间存在的大量冗余,并且根据这些特性设计了一套压缩Web Graph的完整方案,该方案可以通过设置不同的参数在压缩效果和随机访问时间之间根据需求进行权衡。为了提高压缩效果,该方案提出了很多压缩Web Graph的新思想以及算法,例如QR编码以及Run-Length&QR编码等,并且成功将哈夫曼编码的辅助数据文件控制在很小的范围内。通过对Web Graph进行解压缩以及查询过程的分析,根据查询节点过程中存在的参考链过长的问题,给出了参考链的整形与优化算法,显著的减少了查询节点的时间;根据解压缩过程中存在的局部性原理,给出了Cache加速算法,也明显的加快了解压缩Web Graph的速度。本文使用了几组知名的Web Graph数据进行了压缩效果以及随机访问时间的测试,都能达到比较理想的效果,压缩后平均每条边占用1.7bit左右,对于某些数据甚至能够达到1.1bit。通过设置相近的参数,本文将本方案与BV算法进行了某些比较,结果显示本方案在压缩效果上都略优于BV算法,但在对节点进行随机访问的时间上却略长于BV算法。
其他文献
模体发现是生物信息学领域中的重要问题,模体中蕴含着重要的遗传信息,在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成
本文的内容是关于将“面向对象”技术、“最大线性无关组”原理、ASP技术以及多媒体数据库技术成功地整合以便构建一种全新的、高效的英语远程教学原型系统,并且服务于我国的
作为一种有可能替代文本口令的身份认证方式,图形口令使用图形信息作为身份认证的中间平台,在近些年得到了很大的发展。微软公司在其新一代操作系统中提出了一种新型图形口令机
随着国际海事组织(IMO)的一系列决议的颁发,海上交通的不断发展以及船舶自动化的程度不断提高,为了使在船舶发生意外事故之后能够完整的再现当时的船舶运行情况,避免今后类似的
频繁模式的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范
近年来,地理信息产业快速发展,如何高效的搜索、使用这些海量的地理信息数据已成为人们研究的热点。元数据管理是地理信息数据进行整合的工具,设计出高效的地理信息元数据管理系
网络技术的发展日新月异,使得在线商务、政务等活动成为我们生活中的普遍现象。可以预见,电子商务、电子政务、在线处理生活及工作中的各项事务将是未来信息社会活动的重要方式
为了评价端到端体系中的网络性能,网络单向延迟等性能参数的测量至关重要。但由于网络中各主机的时钟不同步,使得单向延迟测度值难于准确测量。为此,本论文研究并设计实现了
离散事件系统的仿真中,事件的发生常是随机的,或者事件的属性值的确定具有偶然性,因此几乎在所有的仿真模型中都需要有某种发生器来产生随机数。但如果是真正意义上的随机数,仿真
随着对入侵检测技术的深入研究和入侵检测产品的广泛应用,入侵检测系统进行测试和评估的需求也越来越迫切。对入侵检测系统进行测试和评估可以更好地认识理解IDS的处理方法、