基于主题定制的专利网络爬虫的设计与实现

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:wajohn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国的网页数量已经达到三百多亿,并且正以年增长率超过百分之百的速度飞速增长。为了从众多的网页中快速高效准确地找到需要的信息,主题爬虫孕育而生,它从网络上选择用户需要的主题信息下载,为用户提供庞大的数据信息支持。本文研究可定制关键词(即主题)的基于.NET的更加精准有效的网络爬虫的设计和实现。通过实验及实际应用验证,该爬虫的精准率大大高于普通的爬虫。
其他文献
首先讨论了MVC设计模式的特点,对Observer模式进行适当扩展,抽象出用于显示逻辑的表现层,增强了代码的可重用性,降低了耦合度。然后利用此扩展的Observer模式完成防撞预警系
高维索引技术作为高维空间数据的快速查询手段,对使用高维数据的基于内容图像检索有着广泛的应用。本文提出以Guttm an提出的R树结构建立存储图像的特征值的高维索引结构来提高图像检索效率。首先对R树的结构进行介绍,然后通过对比相同情况下使用线性查询和R树查询各自的查询次数和查询时间分析R树查询的优势。实验结果表明,利用R树结构可以减少图像检索的查询次数和查询时间,明显地提高图像检索的效率。
无线多跳网络应用日益广泛,但它的特殊性如共享无线信道、多跳连接、节点移动等,使得针对有线网络设计的TCP协议不能很好地工作在该网络环境中,经常误判网络拥塞状况而且反应
针对高效、高质量的SaaS级云计算应用程序的开发,本文阐述云平台的内涵,比较几种商业云计算开发平台,以GAE为平台,采用JDO技术实现数据设计与管理,提出一个云计算软件的开发
现在芯片在设计或制造过程中被植入硬件木马的可能性越来越大。为了避免发生大规模硬件木马的攻击,本文对硬件木马的危害、概念、分类和技术背景进行详细的阐述,同时介绍如今
实时数据库是网络控制系统(NCS)的重要组成部分,是整个控制系统中数据交换的平台。本文在原有的两段锁机制的基础上,提出一种适用于多版本的两段锁并发控制方法。简述数据多版本
队列管理主要负责路由器内部队列的建立、维护和排队,以决定何时接收或者丢弃某个包。目前Internet普遍采用的拥塞控制机制是DropTail主动队列管理算法,而随机早期检测(RED,Ra
利用蜂群的群智能行为特征及其采集行为机制,能够设计出有效的智能算法及人工系统。这是一个较新的研究方向,近年来国内外许多学者已对该研究方向进行了广泛探索。本文阐述两
面向对象软件是由类及其类之间的关联所实现,类测试是面向对象软件测试的关键。本文研究一种将包含层次和并发结构的状态图转化为可扩展有限状态机(EFSM)并获得相应的测试生成树,由测试树产生软件测试数据的类级软件测试方法。实验证明,该测试方法是有效可行的,在实践中能够取得较好的效果。
阐述基于超声导引的药品智能搬移系统的研制方案,并给出主要设计电路。该系统用主从结构的两块,11MSP430F149单片机作为控制核心。从单片机控制搬移设备上的超声发送模块发送超