基于增量学习的主题爬行策略研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:davidchen19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自Internet诞生,搜索引擎逐渐成为人们获取信息的主要方式。然而,随着互联网的高速发展和网络用户需求的不断提高,传统搜索引擎如Alta Visa、Google、Yahoo等越来越呈现出一些局限性,而主题搜索成为解决通用搜索引擎问题的一个最为关键的研究热点。在主题搜索中,主题爬虫在Web上抓取与用户主题兴趣相关的网页,它的优点是尽量检索与主题相关的网页,同时尽可能少的遍历与主题不相关的网页,可以有效减小搜集的范围,提高资源的利用率。考虑到实际互联网上Web网页是不断更新变化的。在一段时间内,有的网页出现,有的网页消失。作者通过深入研究主题搜索的原理及特点,并结合实际web网页更新变化,利用形式概念分析理论知识,将增量构建概念格的思想应用到主题搜索中,使主题爬虫具备一定的学习能力,提出基于增量学习的主题爬行策略。本文主要研究内容如下:1、把增量学习的思想应用到主题爬行中。鉴于形式概念分析在主题搜索中的可行性,把从概念格转换来的背景图作为主体爬虫的知识背景来指导爬行是一个很好的创新。根据主题爬虫的搜索结果进行增量学习,即通过增加主题的网页和删除主题不相关网页两方面进行学习来更新背景图,以便及时地反映Web网页的变化情况。2、增加主题网页相关的概念来更新概念背景图。根据主题爬虫的搜索结果,选取主题相关网页,利用增量概念生产算法得到该主题相关网页的增量概念,把得到增量概念增加到背景图中。3、删除主题不相关网页的概念来更新概念背景图。根据主题爬虫的搜索结果,选取主题不相关网页,从背景图中删除主题不相关网页的概念。4、通过实验验证了本文提出的主题爬行策略的可行性;通过背景图更新前后结果对比和同其它两种爬行策略对比,将结果进行准确率分析,证明了本文方法的优越性。
其他文献
信息检测技术是目前信息学科的前沿研究课题之一,在生产发展上起重要作用。尽管各种信息检测技术在不断地发展,一定程度上解决了检测领域上存在的问题,但对于怎样检测无法检
算法和建模是软件开发中两个最为重要的部分,算法设计以及实例建模的优劣直接影响着软件工程的质量,因此设计合理的算法并建立正确的模型是提高软件质量的关键。本文首先介绍
文本复制检测就是判断一篇给定文档是否抄袭﹑剽窃了或者复制于另外一篇或者多篇文档的内容,复制不仅仅是原封不动地照搬,还包括部分复制、对原作的移位变换﹑同义词替换以及改变
随着通信技术的发展和社会需求的不断变化,各行各业都架设了自己的网站,对外提供各种Web服务。网络的普及和应用对计算机的能力提出了更高的要求,但传统高性能的计算机在性能
随着社交网络的普及以及移动智能设备的发展,基于位置的社会网络(Location-Based Social Network,LBSN)逐渐进入人们的生活。LBSN通过将用户移动行为和地理位置信息关联,充分
随着互联网的快速发展和成像设备的迅速普及,图像和视频成为信息的主要传播方式并爆炸式的充斥在我们的日常生活中。为了让计算机主动地分析和处理获取到的信息,计算机视觉(C
数据挖掘作为一个从大规模海量数据中提取隐含的有价值信息和知识的过程,已经被人们广泛地应用于社会、经济、生产、生活的各个领域。但是数据挖掘有其局限性:数据量必须要大
阴影是不透明的物体阻挡光线而产生的黑暗范围。阴影作为现实生活中物体对于光源照射的投影,已经成为计算机图形渲染中增强真实感的一个不可缺少部分。阴影的边界部分可以帮
雾化渲染技术是3D实时图形渲染技术重要分支之一,也是高级3D场景渲染特效的支撑技术。然而,当前很多3D图形引擎和3D游戏引擎中的场景雾化渲染主要采用比较传统的雾化渲染方法
随着互联网的飞速发展,近年来电子商务得到了迅猛发展,交易数据激剧增加,即使采用目前最有效的Hadoop、Spark等数据处理技术也仍然存在不少问题,例如一些在评测集上效果好的