博客搜索优化研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:cole6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,网络信息资源成爆炸式增长。然而伴随着互联网信息的越来越巨大,网络用户想要找到自己所需的信息就如大海捞针一样,为了更加方便、快捷并有效的利用网络上的信息资源,搜索引擎系统便应时出现了。现在,搜索引擎技术作为计算机与信息产业界竞相研究开发的对象,已经日益成熟起来。目前,在传统搜索引擎技术产品中,开源全文搜索引擎Nutch和全文索引软件包Lucene是当中的具有代表性的两个产品。 博客做为一种新兴的网络服务形式,已经被越来越多的人所关注和应用。然而,博客搜索引擎却不能简单的应用传统搜索引擎技术去开发。博客是互联网上的一种共享空间,是一种作者与读者通过互联网以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。用户可以在该空间上发表文章、评议、图片、影音文件等个人资源。博客用户更新博客的形式不确定,更新博客的内容不确定,更新博客的时间不确定,使得博客网页带有明显的不确定性。因此,博客搜索引擎与传统搜索引擎有着明显的区别。博客搜索引擎只专注于博客方面,博客搜索引擎比传统搜索引擎的索引站点更加明确;博客网页更新时间的不确定性,使得博客搜索引擎比传统搜索引擎更要求时效性;从内容上看,博客检索不仅要取得传统检索的网页形式,还要有博客链接。传统搜索引擎在时效性,覆盖率,页面分析等方面都无法满足用户对博客资源搜索的要求。目前,设计研发一款能够准确抓取博客页面,较大程度上覆盖博客资源,并更新及时的博客搜索引擎已经成为搜索引擎研究领域研究的热点和挑战。 本文在研究传统搜索引擎的基本原理、核心技术和处理流程的基础上,结合博客搜索引擎的具体需求,以开源全文搜索引擎Nutch为体系结构基础,以基于Java的全文索引软件包Lucene为系统的索引功能与检索功能的开发工具包,搭建起了完整的博客搜索引擎系统。 系统实现了分布式易扩展结构,在Nutch源码的基础上,重写了网页过滤部分,网页去噪部分,网页消重部分,实现了PageRank算法;在页面内容分析上,实现了正向最大匹配算法的中文分词方法,并对系统模块进行了优化,加快了系统运行速度。
其他文献
合成孔径雷达(Synthetic Aperture Radar)图像的相干斑噪声严重降低了图像的可解译度,影响了后续目标检测、分类和识别等应用。SAR图像的相干斑噪声是成像过程中出现的原理性
大规模海洋场景的真实感实时模拟是影视动画、虚拟现实及游戏设计等应用领域所共同的极具挑战性的研究课题。但是,目前各种海洋场景的建模与绘制方法各有优缺点,如何混合各不
锚杆是煤矿井下生产使用非常广泛的材料。矿用锚杆是一种安设在岩土层中的受力杆件,它的一端与工程建筑物相连,另一端锚固在岩土层中,必要时对其施加预引力,用以有效地承受结
随着网络技术的发展,“首都之窗”——北京市政务门户网站不断的完善,系统规模变的越来越大,用户如果要登录多个应用系统,不仅要面对多个登录界面,可能还要记忆不同的用户名
随着网络环境逐步向公共的、开放的、复杂的、大规模的网络环境发展,在这种新型的网络环境下开发的功能强大、需要大量资源的科学计算和协同应用也越来越复杂,具有时间、空间
XML以其可扩展、灵活、平台独立、简单和规范等特点使其在互联网中的应用越来越广泛,尤其是在网络领域表示数据方面也越来越重要。所以,迫切地需要寻找一些有效的方法以便从
随着计算机的普遍使用,计算机软件对国民经济的发展起着越来越重要的作用,大到航天飞行器上的软件程序,弹道导弹上的软件,小到我们日常的计算器,这些都是计算机软件。可见我们的生
随着半导体制造工艺的不断改进,处理器的功耗迅速上升。功耗以热能的形式向外散发,使处理器的温度不断上升。处理器的工作温度超过阈值温度时,就会使处理器的工作变得不稳定,
随着网络通讯技术和仿真技术的发展,集散控制系统的全范围仿真正在向所谓“虚拟”技术方向发展。这给电厂仿真培训系统带来了新的发展机遇和开发思想。本文在对虚拟DPU技术、
随着大型复杂计算需求的扩大,人们把高性能计算更多的应用于数据挖掘、图像处理业务、基因测序对比处理等数据处理领域。科学计算规模的迅速膨胀,传统的串行计算已不能满足需