基于形式概念分析的聚焦爬虫算法

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:zhu872007990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的迅速增长使得搜索引擎面临巨大的挑战,搜索引擎如何适应这种变化以及如何提供更优质的检索服务成为了一个备受关注的问题,作为其重要组成部分的网络爬虫算法成为人们研究的热点。通用网络爬虫由于爬行的规模较大,爬行页面内容比较杂乱,不能满足用户对于特定信息以及兴趣主题的集中爬行。面向主题的网络爬虫可以有选择的爬行与主题相关的网页,有效的减少了爬行页面的数量,而且提高了抓取的准确度并满足了用户对特定主题的搜索需求。形式概念分析是一种基于概念格的数据分析方法,自从形式概念分析理论提出以来,它就因为知识表示的直观、简洁等特点受到研究者的广泛关注,已经在软件工程、图书馆和信息科学、数据挖掘等诸多领域得到了广泛的应用。本文通过研究现有主题爬虫的原理,提出了将形式概念分析这一数据分析工具应用到主题爬虫的有关算法中,将概念格应用到主题相关性分析以及排序算法,从而改进了爬虫的相关算法。本文的研究工作主要有:首先,本文通过对形式概念分析理论的学习,认真研究了其核心概念格上概念间的关系以及概念格的结构,联想到将概念格融入到主题爬虫的算法中。其次,重点研究了主题爬虫的原理,包括对其结构,搜索策略,pagerank排序算法和主题相关度的研究,改进了基于概念格的主题相关度算法并将其用来计算爬虫的主题相关度。分析了pagerank排序算法的缺陷,并在此基础上结合概念格提出了改进的pagerank算法。
其他文献
摘 要:结垢是油田开发过程中遇到的最常见的问题之一,影响结垢的因素很多,如压力、温度、流速、矿化度、pH值等多种因素,通过大量试验,分析出了KD403-X9油井形成垢质的主要原因,,为今后防垢方式模式的建立,奠定了基础。  关键词:电泵结垢 结垢分析 水质配伍  结垢是油田开发过程中遇到的最常见的问题之一,影响结垢的因素很多,如压力、温度、流速、矿化度、pH值等多种因素,其中一个重要的因素是油田水
本文运用上下解方法与单调迭代技巧,研究了二阶多时滞微分方程周期解的存在性与唯一性。  本文的主要结果如下:  一.借助于相应的二阶线性微分方程周期解的存在唯一性定
随着数字化技术的迅猛发展,通过计算机实现控制算法的采样控制技术已经成为自动控制领域的研究热点.为应对网络拥塞、器件故障等不利因素,运用变采样技术成为网络控制常见的调
形式概念分析是以数学化的概念和概念层次为基础的数学领域,它激发了人们对概念数据分析和知识处理的数据思考。形式概念分析是应用格理论的一个分支,本文第一、二章概括介绍了
极端学习机是一种单隐含层前馈神经网络。与传统的前馈神经网络相比,极端学习机具有更优的泛化能力,同时极大地缩短了网络的训练时间。然而,极端学习机仍存在一些不足之处,如网络
开发新能源与可再生能源,是解决我国能源紧缺、能源利用与环境保护之间矛盾的必然选择。采用分布式发电供能技术,有助于规模化、充分利用各地丰富的清洁与可再生能源,向用户提供
摘 要:油井的沉没度是衡量油井生产管理水平与工况优劣的重要指标,但是在长期的生产中,油井的沉没度都是根据经验而定,一个区块甚至整个油田都在使用一个固定值,这难免造成沉没度不合理现象,从而使油井系统效率较低,造成大量的能源浪费,同时加剧了机械损耗,甚至影响油井正常生产。因此,研究适应新时期油井生产需要,以提高机采井系统效率、降低生产成本和机采井能耗为目标的合理沉没度具有重要的现实意义。  关键词:沉