基于主题的多线程网络爬虫系统的研究

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:jzl_root2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫是当前较流行的网络搜索引擎工具,其设计需要不断优化,研究也需要不断深入。主题网络爬虫抓取目标明确、抓取结果的结构性较好,更便于进行分析。该文报告了网络爬虫技术的现状,从主题网络爬虫的基本结构入手,对当前主题网络爬虫主流系统的系统功能架构和主要功能模块进行了研究,并分析了当前主流系统的多线程管理模式,特别对基于Java开源框架的爬虫系统的多线程进行分析,为网络爬虫性能的提高提出更进一步的方法。
其他文献
隐喻的翻译是一个与文化息息相关的复杂活动。随着经济全球化的发展,文化全球化已成了必然的趋势,这也必然会给隐喻的翻译理论注入新的血液。就文化全球化这一宏观背景,探讨新的
偏微分方程是理工科大学数学系数学与应用数学专业的一门重要的专业基础课,在偏微分方程课程的教学中适当地引入数学建模思想和方法,使学生体会到学习偏微分方程的乐趣,既达到教
在分析传统的图像质量评价方法及其缺陷的基础上,指出将HVS特性引入图像计测方法中的必要性;同时,对融合图像质量评价现状及虚拟照相系统进行了深入的研究,鉴于虚拟照相系统研究的特殊性,建立了一套适合娱乐照相领域融合图像的质量评价方法,并给出实验分析。
文中分析了嵌入式零树小波图像编码算法 (EZW ) ,发现算法中对重要系数进行的重复扫描编码是可以避免的 ,于是提出了新的算法 ,通过采取“剔除重要系数”步骤 ,避免了EZW算法中对重要系数进行的重复扫描编码 ;并且在算术编码前对符号流进行游程编码 ,减少了零树间的冗余 ,实验证明这些对提高压缩比都具有不可忽视的作用
期刊
运用文献资料法、逻辑分析法和教学实验法等方法,从理论与实践两个层面研宄高校体育教学质量的管理和监控,旨在引起有关部门和高校体育工作者对体育教学质量的进一步关注。研究
介绍了一个基于隐马尔科夫模型的、采用模糊分割方式的脱机手写英文单词识别系统。该系统由图像预处理、特征提取、基于HMM的训练和识别四个模块组成。图像预处理中包括二值化、平滑去噪、倾斜校正和参考线提取。然后通过宽度不固定的滑动窗提取特征 ,前两组特征是整体形状和象素分布特征 ,另外又引入了Sobel梯度特征。HMM模型采用嵌入式的Baum Welch算法训练 ,这种训练方式无需分割单词。最后用Vite
设计了一种新型的波导多层存储光盘驱动系统.介绍了光学头、选层器、寻道器和伺服系统等部件的基本结构和原理,以及这些部件在整个驱动系统中的作用,提出了各部件的设计要求,