增量爬取技术的策略框架设计

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:mimi107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  增量爬取是搜索引擎保持抓取数据新鲜度的重要技术,其实现思路分为朴素同步策略与主动同步策略两种。这两种思路目前在实现上存在着各自的不足,重要原因是其实现框架考量方面的不足。因此对增量爬取过程进行深入分析,界定出增量爬取所需要解决的核心问题;通过泛化解决核心问题的具体方法,定义出实现增量爬取技术的策略框架。基于该框架,可在完整回应核心问题的同时,采用灵活实现策略的具体方法,以保证增量爬取实现方案取得复杂度、性能的平衡。
其他文献
  世系记录了数据产生和演化的过程,基于世系信息计算不确定性数据查询结果的不确定性,可提高处理的效率.贝叶斯网是不确定性知识表示和推理的基本框架,以有效支持基于世系
会议
  针对现在数据流查询与管理系统存在的不足,本文基于Aurora开发了支持CQL的数据流管理系统Conger,系统演示包括CQL示例查询的注册、解析和执行等。
  如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分。在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担。
在智能电网中,精准的数据采集是整个系统安全与经济运行的基础.随着信息与物理系统融合的不断加深,各类大数据应用与实时控制等任务对采集高频数据的要求不断提高.然而,提高
  图数据结构具有较强的模拟复杂结构的能力,能够很好地表达数据对象之间的关联,广泛地用于各领域非结构化数据建模。为解决大量数据子图查询处理中的不确定情况,本文提出了基
  针对物联网数据具有的海量性、异构性、时空敏感性、序列性及数据流式等典型特性,提出适用于单个存储节点的物联网异构时空数据统一存储模型Hestus,通过分层应用架构模式
  如何处理缺失值一直是数据库领域中一个值得关注的问题,缺失值问题的研究对于提高运算效率和保证系统健壮性具有重要意义。云环境中海量数据的稀疏性使缺失值问题变的更加
会议
  社交网站作为在线交流的最新形式,吸引了数以亿计的用户,同时产生了海量数据。为此,如何存储大量的用户及其交互信息成为了社交网站的一个挑战。在深入分析了社交网络数据的
  提出了一种无线传感器网络中基于子空间划分的分布式Skyline查询算法(subspace dividing-based distributed skyline query algorithm,SDKSA),算法提出了一种基于子空间
  连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以
会议