基于增量贝叶斯算法的主题爬虫的设计与实现

来源 :第九届中国通信学会学术年会 | 被引量 : 0次 | 上传用户:zuiaiyunhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学习新的知识,因而很难符合Web资源采集的需要。在线学习新下载页面可加速主题爬行过程、提高页面下载精度。本文介绍了通用爬虫和主题爬虫的区别,通过对增量朴素贝叶斯分类算法的研究,设计了一个基于增量贝叶斯分类器的主题爬虫,并介绍了爬虫的系统结构及关键部分的实现。
其他文献
人们的传统的观念认为,企业的节能途径只能通过设备改造升级或者能源循环利用来完成。近年来,以铸造代替锻造新工艺的实施,对节能大有可为,山东省四方技术开发有限公司自主研发的钢管及冷弯型钢用以铸代锻新材料轧辊及高强度螺纹钢筋和新型棒材辊等,通过探索新材料、新工艺等形式,间接为中国节能、减排、节材事业的发展做出了应有的贡献,产生了巨大的社会效益。
背景:为了减少燃油消耗和降低二氧化碳排放,汽车的轻量化已经成为众所关注的焦点之一,而降低发动机的重量(如,壁厚等)是汽车轻量化的重要途径。目的:为了将发动机的壁厚控制在3mm,产品尺寸公差在±0.5mm,本研究基于Anycasting模拟软件,探讨发动机缸体立式浇注方式的可行性并比较其与传统卧式方法的差异。方法:研究采用Anycasting模拟软件,对立式和传统卧式两种浇注方式模拟,通过充型速度等
为克服湿型砂生产系统中传统的砂处理瓶颈,提高型砂质量和过程控制能力,在企业搬迁之际引进了世界先进的真空砂处理技术,通过合理布局和因地制宜,真空混砂系统的开发应用取得了圆满成功,型砂性能和社会效益在使用初期得到突出显现。在近两年的实践应用中,通过解决生产中遇到的实际问题,笔者对真空混砂系统的特性和布局思路有了更新的研究和领悟,对应用中出现的问题有了更深的探索和对策,希望对国内同行有所借鉴。  通过降
通过生产数据分析与探讨,得出CrMoV铸钢件冶炼主要有两大问题:钢液夹杂物控制及材质性能问题。分析结果表明,影响钢液夹杂物的主要因素有吹氧脱碳、还原剂的加入种类及方法;材质性能主要通过有害元素控制、化学成分优化、热处理工艺调整等几方面进行。针对以上问题进行了冶炼工艺优化,使得产品质量及性能有了很大程度的提高,降低生产成本的同时提高了产品生产周期。
变质钢是最近几年才出现的一种兼有铸铁成分和钢的组织性能的新型结构材料。变质钢技术将给传统的钢铁生产,带来全新的思路。本文将介绍变质钢技术对高碳钢、高碳高合金钢、高碳高合金铸铁及球墨铸铁组织性能的影响。
以改性水玻璃做粘结剂,用专用气体发生器,将甲酸甲酯、空气混合气体吹入芯盒,实现砂芯的快速硬化,该工艺称之为水玻璃冷芯盒法。该制芯技术具有高效、节能、低成本、环境友好等优点。本文对该工艺的原材料的选择、模具设计、吹、排气板设计、管路保温措施、吹气温度、吹气压力、吹气时间的控制,进行了详细论述。制得得砂芯,经表面烘干窑表干后,可当班下芯、合箱、浇注。该制芯技术对改善目前冷芯盒制芯劳动条件恶劣有很大意义
本文简要地叙述了在冶金矿山领域中耐磨铸件的特点、种类和消耗。重点介绍了在采矿和选矿设备中耐磨铸件(磨球、衬板、锤头和圆锥破碎壁)的典型应用状况。最后还讨论了在冶金矿山领域中耐磨铸件的发展方向和趋势。
本文详细分析了全业务网络对传送网的需求,并结合相关传送网技术的发展和应用,提出了全业务城域传送网的目标网发展策略。
现在MapReduce并行计算模型在不同场景下得到了广泛使用。由于网络I/O传输速度通常远小于磁盘读取速度,所以Map任务的本地执行可以提高系统的吞吐率,减少作业执行时间。但是在多作业情况下,由于作业数据分布的随机性,Map任务的本地执行可能会产生负载不均衡的问题。本文提出了一种基于本地优先的作业调度策略,实现Map任务的完全本地化的同时通过优化作业调度,最大限度地实现了节点间的负载均衡。
椭圆曲线密码体制[1] (Elliptic Curve Cryptosystem,ECC)是目前已知的单位密钥安全性最高的一种公钥加密体制。本文在深入研究椭圆曲线加解密理论及考虑到图像本身信息量大等特点后,提出把对图像所有像素加密方式转化成对图像分割后生成的块图元进行整体加密方式,简化处理的信息量,并在FPGA上[2][3]进行仿真和硬件实现,有效地完成图像加密。