就业垂直搜索引擎的架构与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:cqufy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网在近几十年内飞速发展,网络上的信息量爆炸式的增长,如何从这些海量信息中快速准确地提取有价值的信息已经成为人们关注的焦点。通用搜索引擎通过将互联网上大量的信息整理在一个平台上供用户使用,极大的提高了浏览和工作效率,但是存在网页失效以及知识过载的问题。而基于“专、精、深”设计的垂直搜索引擎,从一定程度上解决上上述问题。它实现了搜索引擎领域的行业化分工,为特定领域有特殊需求的人群提供了有价值的信息和服务。近几年来就业问题已经称为亟待解决的一个重要问题,通过便利的通道及时的获取招聘就业信息,必将从一定程度上加大毕业生就业的可能。本文针对这种就业形势并基于垂直搜索引擎的理念设计并实现了就业垂直搜索引擎。本论文对搜索引擎以及垂直搜索引擎进行了理论性的分析,介绍了其实现原理以及主要分类,阐述了当前搜索引擎存在的主要缺点以及垂直搜索引擎的特点,并具体介绍了垂直搜索引擎在设计实现过程中涉及的关键技术,Lucene架构以及实现机制以及垂直搜索引擎相关页面设计。在信息采集模块,设计了列表页爬虫和信息页爬虫两种聚焦网络爬虫。在信息抽取模块,采用了基于标签的网页去噪算法实现对正文的提取,并设计了基于模版及字典的结构化信息抽取算法。利用Lucene框架实现了对职位信息的索引和检索。本系统设计目标为:专注于就业,为求职者提供及时有效的职位信息。最后,基于对垂直搜索引擎的关键技术的探究,设计了就业垂直搜索引擎,并给出原型系统。其中详细的介绍了信息采集、信息抽取及信息索引检索模块的具体实现过程。
其他文献
如何搞好计算机辅助教学工作是每一个高中教师经常思考的问题.在如何评价计算机对高中数学教学的辅助作用时,一个不容回避的事实是,从大局而言,计算机对高中数学的影响并不大
对传统的跳跃SV模型进行扩展,提出了波动率方程中带有协变量的跳跃SV模型,给出了模型参数估计的MCMC算法,并将扩展的跳跃SV模型用于研究全国社保基金的波动特征。研究发现,相
教师在课堂教学中要培养学生的创新意识和实践能力,就要激发学生的学习兴趣。学生的创新意识是在主动探索知识的过程中得到培养的。因此,培养学生创新意识的前提是激发学生学习
<正> 富士苹果1962年由日本选出,1966年引入我国,经多年试栽表现较好。近几年发展富士苹果已成高潮。为了总结富士苹果的栽培经验,进一步开展研究和推广工作,我们于1987年4~10
通过分析我校目前实验技术队伍的结构状况及存在问题,从五个方面阐述加强实验技术队伍建设的措施:稳定现有的实验技术队伍,加强对中青年实验技术人员的培养,加强职称评审与晋
一切艺术形式和传播媒介都离不开技术的支持,电影和电视尤其如此。由福建省委宣传部立项,福建省广播影视集团制作、海峡电视台承制的大型航拍纪录片《飞越海西》,以航拍为主
以萨提亚提出的"冰山理论"为理论基础,通过分析海明威的短篇小说《乞力马扎罗的雪》中的象征主义、简约主义、经验省略和意识流写作手法,探讨海明威小说的"冰山风格"写作手法
随着家电产品消费市场的火热,作为家电产品原材料之一的彩钢板也随之得到日益广泛的应用。家电产品上使用的彩钢板表面质量标准相较于其他方面用途的钢板更加严格,本课题针对
景德镇陶瓷传统知识的传承遭到工业化的冲击,为了促进景德镇陶瓷传统知识的发展,对景德镇陶瓷传统知识保护的手段选择上,应当采取行政手段与民事手段并重的模式。通过行政手
针对彩钢板压型机的自动控制问题,提出一种基于PLC的自动控制系统。该系统以PLC为核心控制器,处理各种输入、输出信号;通过触摸屏实现对系统的实时监控;通过变频调速器实现对