分布式多主题网络爬虫系统的研究与实现

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zhangyangyingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
其他文献
使用NS-2仿真软件,选取分组投递率、端到端的平均时延、归一化的路由开销和路由发现频率4个指标对AODV和AOMDV路由协议进行了性能仿真,通过改变业务源连接数目、节点的暂停时
将不同分子量的壳聚糖混合后溶于1%(质量分数,下同)稀醋酸中制备壳聚糖护肤液。以15%(质量分数,下同)甘油和佳雪芦荟保湿乳液为阳性对照,以95%(体积分数,下同)酒精为阴性对照
对钢铁企业资源综合利用和新材料产业发展现状进行了分析,提出了两个产业各自发展中面临的问题。对资源综合利用和新材料产业协同耦合发展创造的优势,以及所面向的市场、涉及
人本主义心理咨询理论强调在实际的心理咨询实践中,极力避免以咨询者和社会的价值规范影响来访者,不对来访者的经验做价值判断。从人本主义心理学的人性观、自我发展理论及心
本文从自由现金流量的内涵入手,剖析了实务中运用自由现金流量评估企业价值存在的难点和不足,并提出了对策,以期为我国企业价值评估实务提供有益的借鉴。
针对软件项目面临失败风险的问题,提出一种新的软件风险评估模型,采用贝叶斯网络推理风险发生的概率,用模糊语方评估风险后果与损失的方法。实践证明,通过应用基于贝叶斯网络
针对移动设备性能低、屏幕小等缺陷,提出一种快速有效的碰撞检测和响应算法。该算法使用多层次碰撞检测和动态多分辨率网格划分的方法来减少碰撞检测的计算次数,提高了算法性
<正>在幼儿园课程中,既有游戏,也有教学。在编制和实施幼儿园课程过程中,难点不是如何开展游戏,也不是如何进行教学,而是如何处理好游戏与教学之间的关系,特别是在以游戏为主
为了研究碳纳米管对铝基复合材料性能的影响,采用冷等静压、热挤压方法制备了质量分数1.0%的多壁碳纳米管增强2024Al基复合材料.采用扫描电镜、透射电镜和拉伸试验对复合材料
《财富》世界500强排行榜是衡量全球大型公司的最著名、最权威的榜单。在简要回顾2014年世界500强排行榜的基础上,介绍了钢铁公司上榜及排名变动情况,并选择利润、利润率、总