基于Java的垂直搜索引擎的设计方式构建

来源 :信息化建设 | 被引量 : 0次 | 上传用户:huangzhongyan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在互联网时代,随着信息量的不断膨胀,搜索引擎在计算机技术不断发展的局势下,受到了更多的挑战。本文就搜索引擎的发展历程及结构原理进行了介绍,重点提出如何利用Java语言对垂直搜索引擎进行设计方案的构建。
  关键词:Java;垂直搜索引擎;方案构建
  伴随着21世纪互联网技术的炽热化的发展进程人们对互联网应用范围的扩展也提出了新的要求,现有引擎虽然信息面广,但更像大染缸,信息杂糅,只有快速的找到关键词才能比较迅速的找到自己想要的信息大概范围,经过浏览确定最终目标,人们更需要一种专业化的引擎,于是我们想到了垂直搜索引擎。
  一、搜索引擎的发展历程
  20世纪90年代,WWW还没有出现,文件传输已经比较普遍,但查询不便,所以lan Emtage想到了以一种通过文件名查询文件的方法,即搜索引擎的雏形,它以脚本程序为基础,供使用者查找文件。在lan Emtage的启发下,美国的System Computing Services大学开发了具有搜索网页功能的Veronica,网页的搜索开始发展。
  纵观搜索引擎的发展历程,可分为四个阶段。1994年的IR基本实现了在Web网页上的检索,由于可供用的网站也少且费时,很快被第二代搜索引擎代替,第二代搜索引擎主要表现为数据库和网络蜘蛛的分布式两种。第三代已进入人工智能时代,搜索引擎空前繁荣,加入了地域搜索和主题搜索、超链接以及用户记录,自动分类技术已有渗透。第四代搜索引擎即垂直搜索引擎,其专业化程度相较于之前有了很大的提高,出现了专门针对某一行业的主题信息的搜索。
  二、垂直搜索引擎
  垂直搜索引擎的出现改变了原来搜索引擎查询深度不足、信息量太、查询精度低的问题,对某一行业、某一人群的不同需求来对信息进行筛选然后提供给他们搜索更加有序具体,缩小了搜索范围但提高了精度,节约了用户的时间。比如对于经常浏览杂志页面的用户,他可能会有订阅杂志的意愿,那就需要对相关杂志有更详细的介绍,包括里面的排版特点、主要内容等。尤其对于电子行业的用户来说,其需求更加明确所以就需要更加详细的信息予以支持,针对这种非常具体需求而出现的搜索引擎就是垂直搜索。
  作为一种更详细具体的搜索引擎,其专业化服务质量的审核标准主要决定于web结构信息抽取的技术的高低,由于垂直搜索引擎属于新兴技术,仍然处于探索阶段,这是不可否认的。已经存在的垂直搜索引擎主要有:旅游类的去哪儿网、征程网等,招聘类的智联,娱乐类的搜狐、乐视等。
  垂直搜索引擎相比于通用的搜索引擎具有很多的优势:行业色彩更浓,专注于某一主题的服务,所以提供的信息更加详细具体而有针对性;引擎的开发在于为专门的用户提供专门的服务,因为专注,所以高效;以元数据和结构化数据为搜索基础,关键词的提取相对要容易一些。
  当然,缺陷也是不能忽略的,比如种子站点的掌控难,只有经过准去的判断才能够找到目的网站;技术难度比较高;信息的提供专业但是单一。
  三、基于Java的垂直搜索引擎的设计
  手机作为与人们生活息息相关的电子产品,在人们的引擎搜索中往往被格外关注,本文以手机为对象,探讨基于Java的垂直搜索引擎的设计。
  1、引擎设计前的需求分析
  经过对各大手机门户网站进行浏览分析后,需要建立一个具有垂直搜索引擎功能的模拟系统,供用户搜索,具体来讲,需要涉及到一下方面。
  一是手机相关信息的搜索与显示,这是一个直至搜索引擎最基本的功能,通过操作界面的指令的发送,后台开始操作,找到相关的信息后通过界面显示的形式反馈给用户,点击进入后就可以看到需要的信息,不会出现与搜索内容无关的消息。
  二是信息自动采集功能。通过垂直搜索引擎找到与搜索信息有相似特点的信息,并加以保存分析提取整理存入数据库。
  2、设计思路
  本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 环境,其良好的开发性有助于Java语言的开发性能的发挥,在构建web时需要使用PluginV3插件,用到的已开发程序包和检索工具包包括Heritrix1.12.1和Lucene2.0。
  3、网页信息的抓取
  首先需要获得更多的手机相关信息,利用蜘蛛程序爬行网页对各大网站的信息进行收集分析和整理,选择获取信息的网站的前提是浏览量大,信息完备,以便于搜索涵盖几乎所有手机的信息。
  此外还要对网页的结构以及URL特点进行分析,目的在于对蜘蛛获得信息进行进一步的过滤,将与产品无关的资料去掉。
  4、网页机构化的抽取
  在网页被抓取后并不能直接使用,而是需要经过进一步的筛选将有用信息保存下来,一般为了方便数据的入库都会将其以文本形式保存,这一步的信息处理是建立引擎的关键,工作相对繁琐一些。
  5、建立索引
  待前边的准备工作都完成后,即开始引擎搜索的建立,主要是通过代码的编写将获得的信息导入到每款手机特定的文件中,然后放入数据库等待用户搜索。
  结束语
  在互联网时代,信息量的日与剧增促使人们对信息的搜索提出了更专业化的要求,作为搜索引擎的辅助型工具,垂直搜索引擎的确在互联网中法糊了不可替代的作用,我们也将加大对其研究的力度,努力让其在每一个领域都能够提供服务,本文的研究将为这一伟大设想提供参考。
  参考文献
  [1]潘春华,常敏,武港山.面向Web的信息收集工具的设计与开发[J].计算机应用研究,2012(16).
  [2]张娜,张化祥.基于超链接和内容相关度的检索算法[J].计算机应用,2012(26).
其他文献
本文主要针对于我国建筑装饰装修工程环保节能设计存在的问题展开分析,相应的提出促进建筑装饰装修工程环保节能设计的有效对策,希望为促进我国建筑装饰装修工程的环保节能提
优异种质资源的发掘、研究与利用是水稻育种的重要基础。本文对66份全球水稻分子育种亲本材料的稻瘟病抗性、碾米及外观品质进行了系统的研究和评价。结果表明,66份水稻种质
色彩元素的合理利用是建筑室内设计的不可缺少的一项重点工作.虽然色彩元素运用在建筑室内设计中的历史较为久远,但是大多数运用都是墨守成规,没有突出的创新性和特点.随着我
分支降阶是目前广泛用于设计精确算法求解NP-Hard问题的技术之一,该技术主要通过快速降阶、分支及递归求解原问题及其子问题.为了降低分支降阶算法的时间复杂度,一方面可以增
2008年初,备受关注的华为联合贝恩资本拟以22亿美元收购3Com的计划终于有了结果,因未获得监管当局的批准,这个计划已经宣告失败。
海绵城市建设是我国生态文明建设的更高层面的表达,其核心理念就是低影响开发.本文以海绵城市建设规划的相关理论为依据,主要分析了雨洪资源、基础设施等技术的设计思路和要
访谈嘉宾:  李艺:南京师范大学教育科学学院教授,教育技术学博士生导师,中国教育技术协会信息技术教育专业委员会副主任。  王荣良:中小学计算机教育研究中心上海研究部主任,华东师范大学中小学信息技术教育研究中心主任,中国教育学会中小学信息技术教育专委会副理事长。  《中国信息技术教育》:2000年前后,我国提出需要培养和提升学生的信息素养。但是2006年周以真教授提出计算思维得到各个国家和地区的认可
2011年6月18日,第四届中国湖南畜牧渔业暨饲料工业博览会开幕,省人大常委会副主任陈叔红(左1)、省政府副省长徐明华(左3)、省政协副主席阳宝华(左2)、全国水产技术推广总站副
期刊