基于强化学习的垂直搜索引擎网络爬虫的研究与实现

被引量 : 0次 | 上传用户:cq823285326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文将强化学习方法引入到垂直搜索引擎网络爬虫中,设计实现了面向餐饮业的基于强化学习的垂直搜索引擎网络爬虫RL-Spider(Reinforcement Learning Spider)。建立了RL-Spider的流程架构,并设计实现了面向餐饮业的垂直搜索引擎RL-Searcher(Reinforcement Learning Searcher)原型系统。本文主要包括以下几方面内容:(1)针对传统搜索引擎爬虫程序抓取信息全但不够细化的特点,设计了一个面向餐饮业领域的聚焦爬虫。提出了基于强化学习的网络爬虫算法,并应用于餐饮类站点的发现中。实验表明,该系统在信息查全率、查准率等方面都有较大的提高。(2)针对网络爬虫在URL提取过程中,采用深度、宽度搜索策略等方法,容易使网络爬虫陷入“维数灾”问题,在研究逻辑程序设计与强化学习方法结合的基础上,提出了基于逻辑强化学习的网络自主搜索方法,并在RL-Spider中得到了应用。实验表明,系统在大规模网络爬虫中,可大幅度提高网络自主搜索效率。(3)针对在RL-Spider中,“主题网页发现”等方面的问题,根据强化学习的自身策略,实现了强化学习在“主题网页发现”中的应用,并提出Detail页的URL识别算法。实验表明,该算法能够大幅度地提高“主题网页发现”的准确率。(4)在RL-Spider架构的Detail模块中,对Detail页面的关键信息进行提取,如Title、Meta、文本信息等,并建立索引、去除无关信息、建立网页快照,采用Lucene建立索引,供查询系统调用。(5)设计实现了一个面向餐饮业的垂直搜索引擎原型系统RL-Searcher,并利用该系统对RL-Spider的抓取效果进行了验证和实验数据分析。
其他文献
目的:探究麦冬汤合牛膝饮加味治疗2型糖尿病合并高血压的临床效果。方法:选取2013年9月~2014年9月来我院内分泌科就诊的2型糖尿病患者63例为研究对象,所有患者符合我国卫生部
<正> 我的介绍分三部分。第一部分,我将简要谈一下美国研究南亚机构的历史;第二部分,我专门以一个机构为例,即介绍一些关于得克萨斯大学奥斯丁分校亚洲研究中心的情况;第三部
数字全息是光学全息、计算机技术和数字光电技术相结合的产物,它利用电耦合器件CCD代替传统干板记录全息图,然后将全息图存入计算机,用计算机模拟光学衍射过程来实现被记录物
<正>在日常生活中,我们所要注意的不仅仅是某些整数,而是某些数用某一固定的数去除所得的余数。例如:我们经常会问现在是几点钟了,这实际上就是用24去除某一个总的时数所得的
目的:探讨分析牙周炎合并糖尿病患者的临床治疗方法。方法:回顾性分析2013年2月~2014年11月我院48例牙周炎合并糖尿病患者的临床资料,患者均采用牙周基础治疗方案,观察比较治
按照企业生产组织方式影响人才规格,进而影响人才培养目标这一逻辑主线进行思考,才能找到高等职业教育人才培养目标定位的真实答案。文章在论述温特制企业生产组织方式产生背
在我国,通过权利保障维护供述自愿性的理论构想并未透过现行刑事诉讼法全面体现。在供述自愿性的权利保障模式之外,还存在通过外部权力制衡审讯权力,从而间接维护供述自由的
<正>《国家中长期教育改革和发展规划纲要(2010一2020)》强调"着力提高学生的学习能力、实践能力、创新能力,教育学生学会知识技能,学会动手动脑,学会生存生活,学会做事做人,
本文对当前的数学教学问题进行了解析,并从电教教学的五大优势入手进行详细的分析。电教教学可以对数学中的抽象概念进行形象化的转变,能够使抽象的思维变得形象直观,电教对
新课标颁布实施后,有关小学英语如何教、怎样教的问题备受关注。通过情境教学法培养学生的言语交际能力的方式受到广大教师的关注。通过问卷调查,了解情境教学法在教学中的使