面向图书主题的爬虫算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:mcusun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。
其他文献
开发Linux下的设备驱动程序是一项比较繁琐的工作.从具体的USB设备驱动的开发流程出发,描述了Linux系统下USB设备驱动程序的几个主要开发细节和注意点.以能够提供给大家一个
对采用分布式嵌入式实时操作系统QNX开发基于PC硬件平台的嵌入式网络视频监控系统作了应用分析和系统设计,并详细论述了系统的视频采集卡驱动程序和视频回放软件在QNX RTP 6.
针对实际多变量、强耦合非线性温控系统,设计了自适应拟人智能控制器.采用了分区控制思想,根据不同的误差和误差变化趋势,采用了不同的PID控制策略.为了更好地克服各种外界因
提出了一种基于PXI和DSP的高性能数据采集设计方案并给出原理性介绍,集成在一板卡上实现了8通道模拟信号调理、采集、处理,并可实现多卡同步触发采集,已成功地完成某航空机载
开发出了一种用于移动载体(车、船、舰等)上利用稳定平台来进行卫星通信与电视信号接收的系统,采用基于ARM7TDMI核微处理器的嵌入式系统来跟踪与控制稳定平台的运动;重点介绍
文章提出了一种基于自适应混合模型和区域特征的多目标跟踪与检测算法.背景分割算法采用高斯混合模型描述每一被观察像素的近期色彩历史,建立自适应背景模型,然后根据背景模
介绍了可编程控制器(PLC)在自来水工业监测系统中的应用,它采用了可编程控制器作为下层数据采集和处理的核心设备,先进的硬件技术和优化的软件设计使整个系统的可靠性、可扩
UCON模型作为新一代的访问控制模型,能够通过可变属性对使用实现连续控制,可满足当前开放的网络环境需求。但UCON模型仍存在一些缺陷:不能实现对权限的管理、对权限的委托和对
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)
填充函数法是求解非线性全局优化问题的有效方法。针对无约束优化问题,在目标函数及其梯度利普希兹连续的基础上,提出了一个新的连续可微的单参数填充函数,并研究了该填充函