垂直搜索引擎实现数据信息采集

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:doudouling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据高速增长,全文搜索引擎这类常规的搜索引擎在人们查询信息时,时常会返回包括一些无关信息的大量信息,使得用户不能准确地获取自己真正想要的信息。垂直搜索引擎为了解决这个问题而产生。垂直搜索引擎是全文搜索引擎的拓展产物,即是细分的专业全文搜索引擎,它在专业化网站运作,能帮助人们获得专业化数据。目前垂直搜索引擎在对从网络中抓取的大量数据创建索引时,常常需要花费很多的时间、浪费系统的资源、索引库不能及时得到更新。本文重点研究了利用百度地图API抓取大量的地图的点数据和改进了IK分词器的词元在排序集合中的比较算法。由于百度地图对用户访问地图数据采用限制速度、限查询信息量、限访问次数等策略,使得人们在有限次的访问中只能获得很少的信息量。本文通过矩形切割拼接的方式缩小抓取范围,通过提高访问次数来增加对地图点数据的获取量,再通过循环遍历,通过仿真模拟获得大量的地图点数据信息;在对同一句话有多种分词方式容易使语句产生歧义的情况下,IK分词器一律优先选择分词后词元数量少的简单的分词方式,而忽略了个数少的词元比较次要,而个数比较多的词元比较重要的情形。所以通过继续判断双方词元的权重,增强对歧义语句的判断,通过仿真模拟得到的数据得出改进算法确实可以帮助搜索引擎提高创建索引的效率、从而减少系统创建索引的时间,间接帮助系统和用户更快地更新索引库,提供更细致的服务的结论。本文在分析全文搜索引擎的原理和工作流程的基础上,模拟了传统的网络爬虫、主题网络爬虫、API抓取工具的运行,通过仿真试验模拟分别得到它们从网页中的抓取数据,对比总结了这三种抓取方式的优缺点。本文在分析Lucene工作原理的基础上对大量文本数据进行索引的创建,通过Lucene评分机制得到出输入关键词在它所出现的每篇文章的评分大小。仿真模拟用户输入关键词时,搜索引擎对输入关键词创建索引并进行查询的过程,最终将查询的结果按照文档的评分从大到小输出到仿真软件的控制台的输出界面上。
其他文献
1 临床资料患者女,35岁,于2014年3月13日妊娠19+4周时来石家庄市妇幼保健院行产前检查。就诊时主诉结婚13年,孕4产1,药物性流产2次,育有1名12岁健康女孩。查血常规、传染5项、肝功
超声弹性成像是通过对组织施加压力,组织内部发生相应的改变,收集变形前后组织的超声回波信号,将信息重建后形成弹性图,该概念起源于1991年,近年来成为临床检查中新兴的一项
从去年底纺织协会召开的"行业经济形势分析会"传出来的声音:2004年行业经济实现了稳步较快增长.说其"稳步"是因相对2003年,行业经济增长无大起大落之动向,尽管外部环境中有不
目的探讨硝普钠对急诊经皮冠状动脉介入术(PCI)中无复流现象的治疗效果。方法将2012年10月至2014年6月新密市第一人民医院行急诊PCI治疗的41例STEMI患者纳入本研究,利用随机
佛道斗争是唐代两教关系的主旋律。唐代统治者的宗教政策以及宗教本身的排它性,使得佛道两教在获取上层支持和下层教徒两方面展开激烈的斗争。作为唐代重要道教文学之一的道
目的探讨无复流发生的机制以及防治无复流相关的治疗措施。方法以2013年1月—2018年1月作为研究阶段,研究对象方便选取400例,均为进入该院就诊并接受PCI治疗的ST段抬高型心肌