基于Nutch和Solr的旅游信息垂直搜索引擎的研究和实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:cole6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,万维网成为大量信息的载体,搜索引擎作为人们获取并利用这些信息的重要工具,成为用户访问访问万维网的入口和指南。传统的通用搜索引擎技术不加区分搜罗全网数据,虽然覆盖全面但是也存在结果繁多这一缺点,从而提高了有特定需求用户的筛选成本。垂直搜索引擎仅仅采集某一特定领域相关的页面,可以更加精确、迅速地让用户获取到其关心领域的信息。面向旅游领域的垂直搜索引擎,可以让旅游者、旅游业从业人员等相关人员迅速获取旅游类信息。Nutch是Apache旗下的Java开源网络爬虫,主要用于搜集网页数据,然后对爬取到的网页进行分析,它与开源全文索引框架Solr结合,可以搭建一个搜索引擎系统原型。本课题在研究其基础上,通过改造的相关功能模块,改进相关算法,实现了一个面向旅游领域的垂直搜索引擎。本文的主要研究内容如下:(1)首先,明确研究背景、研究意义,了解搜索引擎的工作原理、发展史以及它的2种分类方式。阐述通用搜索引擎存在的不足以及垂直搜索引擎存在的优势。其次,在分析垂直搜索引擎的关键点后,提出针对旅游信息的主题爬虫模型。(2)垂直搜索引擎与通用搜索引擎最显著的区别就是采集内容的主题性。在选择一定数量的样本文档采用文档频率DF结合人工筛选建立旅游主题词库后,爬取过程中应用主题相关性判定算法结合主题词库对网页进行主题相关性判断,过滤与旅游主题相关性差的网页。(3)在索引过程中引入IK-Analyzer来增强搜索引擎对中文分词的支持,并且扩展其词库,加入主题词库内容,扩充停用词。网页排序算法的优劣与用户查询体验紧密相关,在搜索排序中,采用基于PageRank算法结合主题相关度改进网页评分,使得在网页排序时考虑到页面权威性和主题性这样的因素。(4)借鉴各大搜索引擎的UI设计设计实现良好的用户检索界面,提升用户体验度。(5)在深入了解Nutch和Solr的工作原理、源码实现后,针对旅游领域主题采集这一目标提出自己的创新思路和解决办法,并对其进行二次开发,实现基于Nutch和Solr旅游信息垂直搜索引擎系统。在服务器上,搭建Hadoop分布式平台,并部署系统进行运行与测试。
其他文献
[目的]探讨利用电感耦合等离子体质谱(ICP-MS)同时测定黄土性土壤中多种元素的可行性。[方法]将标准物质和黄土性土壤进行一次湿法消解,使用ICP-MS同时测定样品中的多种大量
本文以山东省为例,说明当前跨境人民币贸易融资与外贸形势、国内外利差、企业融资需求、货币政策和外汇政策管理等因素密切相关,同时结合监管现状、金融机构利益需求等多方面
<正>患者,女,20岁。就诊日期:2016年1月14日。主诉:晕厥伴头晕1h。现病史:2h前患者进食大量生冷油腻之品,后去闷热澡堂淋浴,1h后突发晕厥,伴咽部异物感,小腹阵痛(此为患者清
目的:研究胰岛素样生长因子Ⅱ(IGF-Ⅱ)、表皮生长因子(EGF)在含葡萄糖、胰岛素的CZB培养液中对ICR小鼠早期胚胎体外发育的影响。方法:①在含有葡萄糖、胰岛素的CZB培养液中分别添加
屈指算来,期望已久的2005年1月1日再过最后三个月就要到来,具有特定时效性的"后配额时代",将开始全面、深刻地改变国际纺织产业的市场与利益格局.国内外不少预言家、行业组织
这两年行业发生的变化莫过于面料水平高了,家纺用品靓了,国产纺机火了.这是一种相对的进步,自己跟自己比的进步,如果跟先进的国家比较还有不小的差距.这使我们想起革命先辈的
随着我国加强对基础设施的建设,建筑行业也在不断地发展。建筑业已然成为我国经济发展的支柱性产业,工程造价管理保证了建筑单位的利益最大化,有利于提高造价的控制力。通过
目的针对农产品中转基因检测抽样过程,研究从批到实验室样品的抽样过程中各因素对最终结果准确性的影响。方法历时5年,对395批在港口装/卸的散装农产品货物开展了系统的抽样
目的针对农产品中转基因检测抽样过程,研究从分析样品到试料的抽样和分析过程各因素对结果准确性的影响。方法取非转基因玉米为基体,添加12个品系转基因玉米制作标准分析样品