基于Heritrix的增量式爬虫设计与实现

来源 :电信技术 | 被引量 : 0次 | 上传用户:gaolch015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
其他文献
2013年11月25日,NTR-网络电信信息研究院最新公布2013年全球|中国光通信最具竞争力企业10强各领域榜单,进入各领域榜单的相关企业如下。《2013年全球光纤光缆最具竞争力企业10
针对不稳定的泛函极值问题,建立了收敛到极小化元素的极小化序列的算法,从而得到极小化元素的稳定的近似解。
介绍了基于现场可编程门阵列(FPGA)的以太网MAC子层协议的硬件实现方法。硬件结构上由控制模块、发送模块和接收模块3个部分组成,发送模块和接收模块采用状态机控制数据发送和
给出Ln(s1×s2×…×sk)正交设计的数学模型,并在线性模型一般理论的基础上,对正交设计模型中的估计问题进行了统计分析。
给出了带电粒子在任意一个均匀静电磁场中的运动方程 ,并依据此结果 ,讨论了几种典型情况
提出一种新的可用于说话人识别的径向基函数网络(RBFN)阵列.RBFN网设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最优权重,该方法并不能得到最优分类效果.使用Fisher目标函数,替代RBF中的误差目标函数来求取最优权重,用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法提高了RBF分类能力,比传统的RBF算法以及ROLS算法具有更高的识别率,并在识别效果
本文收集整理了KiK-net强震台网中39个Ⅲ类和Ⅳ类场地台站的308组强震记录,分析了软弱土层的地震动效应,包括PGA放大系数和加速度反应谱放大系数.结果表明:Ⅲ类场地和Ⅳ类场地的PGA放大系数分别在区间2-8和2-6较为集中,平均值分别为4.21和4.06;Ⅲ类场地和Ⅳ类场地0,3s加速度反应谱放大系数分别在区间2-10和2-5较为集中,平均值分别为5.20和4.54;Ⅲ类场地和Ⅳ类场地的1s
给出二次矩阵方程Q(X)=AX 2+BX+C=0的最大解和最小解存在的充分条件,并且讨论了二次λ-矩阵多项式Q(λ)=λ 2A+λB+C特征值的性质.
以主流FPGA为平台设计了一个可重构处理器.该处理器在与现有处理器内核全兼容的基础上,把指令总线和数据总线作为可重构部件的扩展接口,具有简单可靠的部件指令扩展规则、数据通
制备了不同取代基的N-取代苯氨基乙酸金属配合物M(R-PhG)n(其中M=Cr^3+,Mn^2+,Co^2+,Ni^2+,Cu^2+;R=-CH3,m-CH3O,p-CH3O,p-Cl,m-Cl,PhG=C6H4NHCH2COO^-)并对它们进了元素分析,差热分析,红外振动光谱和电子吸收光谱分析,以及磁化率的测定。