主题网络爬虫的研究与实现

来源 :广西大学 | 被引量 : 0次 | 上传用户:hillyblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主题的搜索引擎应运而生。主题爬虫作为主题搜索引擎的重要组成部分,其采集资源的准确率和质量直接影响着主题搜索引擎的性能。通过对主题爬行中文本分类和搜索策略两个关键技术的研究,指出传统信息增益特征选择方法存在的两个不足:其一是没有对特征项的词频给予足够的重视;其二是错误的提高了在一个类别中出现次数不多而在其它类中经常出现的特征项的权重。并指出经典PageRank算法直接应用于链接主题预测容易出现“主题漂移”问题。   首先,针对传统信息增益特征选择方法存在的两个不足,综合考虑词频和词条在类间的集中度和在类内的分散度对特征项分类能力的影响,提出了一种基于信息增益的特征优化选择方法,实验结果表明,改进的算法有效地提高了分类的精度。   其次,针对经典PageRank算法直接用于主题预测存在的问题,利用网页的标签结构信息对网页进行分块处理,并综合考虑锚文本信息,URL链接类型和块中其他链接的反馈信息,提出了一种基于网页分块的综合主题相关度预测算法,将原来的平均分配PageRank权威值转化为按块和块中链接的主题相关度来传递PageRank值。   最后,在基于信息增益的特征优化选择方法和基于网页分块的综合主题相关度预测算法的基础上,设计和实现了一个主题网络爬虫系统,实验表明,改进的PageRank算法提高了主题爬虫的收获率。
其他文献
社区电子服务是构建在VPN网络之上,为广大社区用户提供缴费、订票等综合服务的电子商务形式。和一般的电子商务应用一样,社区电子服务对基础网络的依赖性也越来越强。其网络
路由器是计算机网络中的一个核心设备。研究并实现一种具有低功耗、低价位并支持3G无线接入的路由器方案,具有广阔的应用前景。嵌入式系统目前发展非常迅速,应用也越来越广泛
随着数据库与信息技术的不断发展,时态信息处理已成为许多新一代数据库信息系统的重要研究方向。但是由于时态技术相对落后和时态语言难于标准化的原因,在实践中至今还没有真正
随着网络技术和网络规模的不断发展,网络入侵的风险性也越来越高,网络入侵以经成为一个全球性问题,如何熟练、并高效地发现网络入侵行为显得尤为重要。传统的网络安全技术所
DNA计算是近年来计算机研究领域的一个热点方向,在近几年分子生物计算机的研究中倍受学者们的关注。基于分子生物技术的DNA计算是一种模拟生物分子DNA的结构并借助于生化反应
学位
随着企业应用环境逐渐向Internet网络分布式计算环境转移,企业级Web应用呈现出复杂性、动态性等特征,对位于中间件层的Web应用服务器性能优化提出了更高的要求,其中资源的利用和
数字视频在教育、娱乐及其它多媒体应用中发挥着重要作用。为了满足需求,各种各样的视频分析、检索技术被提出,其中,视频文本包含了丰富的高层语义信息,可用来对视频进行语义标注
视唱练耳是音乐专业的一门重要的专业必修课程,如果掌握了多媒体这个先进的教学手段,视唱练耳课程在技术上获得更多新的原动力,继而走进一个可持续发展的领域。因此,将电脑音
Web服务是实现面向服务的架构(Service-Oriented Architecture,SOA)的方法之一。SOA的最大优点是可以通过组合已有的服务来快速开发部署新的业务,这些服务可以属于同一组织,也可分
随着科学技术的发展,煤矿生产安全监控系统日臻完善,大多数煤矿都安装了视频监控系统。煤矿视频监控系统在煤矿的安全生产中发挥了重要作用,然而矿井下粉尘多、光照差的恶劣
学位