基于Lucene的云平台学术搜索引擎

来源 :北京工业大学 | 被引量 : 5次 | 上传用户:atishi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球互联网的高速发展,网络信息总量正在迅猛增长。以Google、百度为代表的通用搜索引擎成为人们获取互联网信息的重要入口。然而此类大型搜索引擎却不能完全应对面向专业领域的检索需求,垂直搜索引擎的出现满足了这类需求。本文针对互联网上存在的海量学术文献数据,在Apache Lucene全文检索工具库的基础上,提出了一种基于MooseFS云存储平台的垂直搜索引擎设计实现方案。该方案专注于互联网海量学术文献的信息检索服务,检索结果整合多个网站的文献数据,具备较高的准确性与全面性。使用云存储平台进行索引存储,能够提高存储可扩展性,保证了系统面对大规模数据的检索处理能力。本文研究内容主要包括:设计实现高可定制性和高爬取性能的多线程定向网络爬虫,用于论文数据的定向爬取工作。研究全文检索技术及全文检索工具库Apache Lucene的实现原理,并在此基础上进行二次开发,完成论文数据检索系统设计与实现。研究分布式数据库集群和分布式缓存集群技术,设计实现基于一致性哈希的数据库分片集群方案和基于Redis的LRU分布式缓存方案。研究MooseFS云存储平台原理与架构,使用MooseFS云存储平台构建Lucene索引存储平台。结合上述多种方法提出基于Lucene的云平台学术搜索引擎解决方案。本文提出的垂直搜索引擎技术框架及其云存储平台实现方案,实现了多个学术数据库数据的整合检索,能够有效提高用户对互联网上的海量文献信息的检索效率,具有重要的理论意义与现实意义。
其他文献
<正>现行高中历史教材有多种版本,但在内容编排上都讲究图文并茂,丰富生动。教材编写专家精心设计了许多栏目,例如,岳麓版教材中的知识链接,人教版教材中的知识纵横,还包括许
我国探月三期的主要目标之一是利用钻取采样装置获取不小于2米深度的月壤样品并返回地球,钻进导向机构作为钻取采样装置的重要组件,为多种输入工况下的钻具提供支撑和导向功
<正>科学发展观,是我国经济社会发展的重要指导方针,是发展中国特色社会主义必须坚持和贯彻的重大战略思想。以人为本是科学发展观的核心,只有把以人为本的思想贯彻落实到高
在对岩溶地区工程地质条件分析基础上,针对该复杂场区选用合理的基础形式,并结合岩溶地区桩基工程的具体实例,对桩基检测方法进行选择分析,提出了采用钻芯法与声波透射法相结
<正>一、新形势下学生社区公寓的新特点在高校后勤社会化改革的新形势下,学生公寓园区安全运行呈现一些新的特点:(一)组织意识弱化,纪律趋向松懈高校后勤社会化必然会带来高
如何对机体进行方便、省力、高效的翻转,是各大功率发动机生产企业实现精益生产的一个必要条件。针对公司大功率发动机L形和V开机体的外形特点,介绍了几种机体翻转方案,并设计了
翻转课堂将知识的传授和知识的内化教学流程进行了颠覆,带来了教学的革命和创新。本文通过对翻转课堂的认识,探讨如何在英语教学中应用翻转课堂,以期为翻转课堂的实践提供经
随着时代的发展,唐卡文化凭其丰富的寓意和精美的展现,已经成为中国传统文化必不可少的一份子。在大众对文化需求越来越大的今天,人们希望更便捷地接触到唐卡,并且希望发挥自
近年来,随着科技腾飞,人们已经全面的进入了科技信息时代。尤其是以苹果公司为代表的世界各大移动终端设备、电子信息设备的生产商们,正在用如iPad、iPhone等终端移动设备影
云计算被广泛应用在信息系统中,特别是在金融、电信、能源等领域,在这些领域中,系统的故障会导致巨大的损失。虚拟化是云计算中的核心技术,对虚拟化系统的容错性评测意义是十