面向历史网页搜索的索引系统研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yzl417801753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的飞速发展,每天都有海量的新网页在万维网上诞生,但是也伴随着大批原有网页的不可避免的消亡。美国的Internet Archive和中国北京大学的Web Infomall等项目便担当起了保存历史网页的任务,但是目前大多数的网页保存项目和机构都没有建立成熟的历史网页搜索系统,给在历史网页上进行数据挖掘工作带来了一定困难。   本文对设计和实现历史搜索系统的核心部分——索引系统进行了研究和探索,重点研究了如何在索引系统中帮助解决历史网页搜索系统面临的主要问题:需要实现对搜索结果按照时间升序和降序返回;在以时间序为结果返回顺序的前提下的搜索结果质量较差。在体现历史网页搜索结果的时间特征上,本文设计了适用于历史网页索引的倒排索引结构以及相应的附属数据结构,实现了历史网页搜索按时间序返回搜索结果的功能,并在检索性能的改进上进行了诸多探索;在提高历史网页的搜索结果质量上,本文设计了相应的索引结构以支持基于领域的检索模式,使得历史网页的搜索结果的质量效果得到了一定的提升。   本文还对如何选择历史网页倒排索引的压缩编码进行了研究,并提出了一种新型的支持双向解压的索引压缩编码,它在压缩率上具有一定的优势,并且对历史网页按时间降序返回搜索结果的效率提升具有一定的帮助。   本文在相关研究工作的基础上,介绍了一个的基于Web Infomall的网页数据的历史网页搜索系统HisTrace的索引结构的设计,和它的分布式索引服务的设计与初步实现。
其他文献
随着我国道路运输业迅速发展,行业能源消耗规模逐年上升,节能减排任务艰巨.为了做好节能减排工作,本文剖析当前道路运输节能减排面临形势、存在的问题,提出推进运输结构调整
近年来,统计机器翻译取得了很大的发展。基于短语的翻译模型和层次短语翻译模型被广泛用于机器翻译评测和在线翻译系统中,成为统计机器翻译的主流技术。同时,基于混淆网络的系统
本文以桃源县职业中专2019年省职业教育教改项目《中职英语对分课堂研究》(项目编号:ZJZB2019091)进展为例,结合团队成员和部分一线中职英语教师的教学体会,中职英语课堂受各
淄博矿务局针对矿区衰老,困难职工多的实际,坚持把搞好扶困工作,帮助困难职工脱贫解困和解决好他们的实际生活困难作为调动保护和发挥职工积极性,推动改革,促进发展,维护稳
本文围绕公路体制改革过程中职工思想政治工作的重点及思路分析为课题进行阐述,主要讨论了树立双向政治观念,建设并完善实效性的思想机制,加速公路文化建设,提出良性公路体制
本文通过对荣华二采区10
近20年快速积累的基因和基因组信息为生命之树的构建奠定了重要基础,在多源数据的获取过程中,目前主要是依靠研究人员手动获取,大大降低了科研人员的效率。另外一方面,急速膨胀的
随着我国经济市场体制的改革,为了更好的推动我国国有企业的稳定发展,营造良好的工作环境,就必须要强化纪检监察工作.文章主要介绍了当前我国纪检监察工作的现状和相关的解决
知识经济时代下,知识管理成为当今社会一种新的管理形式,其与知识经济发展需求相符,能够在实际管理中发挥作用,对于档案、资料以及文献等实行知识管理,不仅能够提高档案资料
IP地址是互联网的基础资源,任何依赖TCP/IP协议栈进行互联网通信的节点都需要得到唯一的IP地址。IP地址规划的主要任务是研究IP地址的分配方法和管理技术,保证IP地址分配的唯一