网页标题分析对主题爬虫的改进

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:ben349408481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切。然而目前的主题爬虫所采用的两种基本抓取网页的方式效率比较低下。提出了一种通过网页标题分析对主题爬虫的改进方案,比较了引入标题分析前后的结果,论证了设计的可行性与可操作性,优化了主题爬虫对同类型特定信息的抓取。
其他文献
在分析绿色屋顶的多重生态功能基础上.阐述了影响绿色屋顶生态功能的主要因素.并总结了对绿色屋顶生态功能进行定量计算的数值模拟方法,以期为城市绿色屋顶的建设提供理论和方法
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进