基于目录型网页的课程资源爬取子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:liaozhouyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的很多搜索需求已经从通用搜索转向关注于主题的搜索,但互联网主题信息所占比例小、分散度高,传统的搜索策略由于缺乏有效的内容预分析和过滤,爬取的无关主题网页过多,成为限制爬虫效率的瓶颈。因此如何利用有限的带宽及存储容量,迅速而准确地爬取主题网页就成了近年来搜索引擎网页爬取系统所关心的问题。 本文设计并实现了基于主题目录型网页发现的主题爬取子系统,该子系统是北京大学与惠普合作项目在线课程组织与管理系统OCOS的一部分,得到了惠普大学合作基金“在线课程组织”(编号HLCFY08-001)的资助。该子系统旨在有效地发现并识别主题,利用有限的带宽和时间,尽可能多并且准确地爬取课程相关的网页,之后通过提供给OCOS系统的后续模块适当的接口,从而有效整合来自国内外知名高等院校的课程资源,实现网上教育资源的广泛共享。 目前国内外主题爬取技术仍未十分成熟,从利用背景数据来看,有网页全文、锚文字、扩展锚文字、URL文字、元数据等;从优先级预测技术来看,有只基于内容、结合链接结构与内容的方法等。但是很多方法都存在一些问题,缺乏通用的高效的主题爬取技术,。 本文以锚文字和URL文字为研究对象,在内容分析的基础上,结合链接结构的分析,发现课程网页分布的特点,提出以修改的主题相关的HITS算法为基础,通过计算词的主题目录、权威值预测链接的目录、权威值,进而划分优先级,最后按优先级进行爬取的框架,旨在发现主题目录型网页提高主题爬取的性能。 本文的创新在于以下几点: 1.将HITS算法引入到主题爬取技术中。修改原始的HITS算法,使之与主题相关,较好地给予网页主题目录型、权威性的评分。 2.提出并调整从网页的主题目录值、权威值计算词的主题目录值、权威值的计算公式,并通过参数取得较好结果。 3.综合考虑链接结构和内容的影响,提出并调整从词的主题目录值、权威值预测链接主题目录值、权威值的计算公式。 4.提出并实现英文网页不规范词切分方法,融合于主题爬取器中,显著提高了性能。
其他文献
强化学习是与传统的监督学习完全不同的学习框架。在强化学习中,agent感知环境的状态并采取相应的动作,同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识,而是通过
软件体系结构作为高层的设计蓝图,在软件系统开发的过程中,其主要角色包括:支持开发人员之间的交流、直接支持系统开发、支持软件复用等。目前存在的问题是软件体系结构设计不断
如今,软件在人们的社会生活中占据越来越重要的地位,软件的正确性也受到人们越来越多的重视。特别是随着敏捷开发、开源软件等快速迭代开发模式的出现,人们对软件的安全可信提出
随着现代软件工程和开发技术的发展,SOA技术以其灵活高效的优势赢得了普遍的支持,并已经在分布式计算方面形成了一场革命。而另一方面人们逐渐进入了Web2.0时代,AJAX技术成为Web
为了实现磁共振快速成像,一种可行的方法是减少K空间数据的采集量。然而,基于欠采样K空间数据进行磁共振图像重建的问题是一个病态的反问题。由于压缩感知理论的出现,基于稀疏性
在本体构建和应用过程中,知识表示的正确性、表达性,以及是否可被共享和复用,将直接影响到对本体的正确应用。本体评价作为把握上述问题的必要手段之一,目前已经得到越来越多的研
随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。如何保护私有信息或敏感信息在挖掘过程中不被泄露,已经成为数据挖掘研究中的一个很有意义的研究课题。
大数据时代,分布式文件系统存储服务面临巨大的压力与挑战,元数据管理技术是新型分布式文件系统实现可扩展性的关键因素,近年来受到了工业界和学术界的普遍关注。相比于数据,元数
近年来,计算机软件规模迅速扩张,软件功能日渐复杂,给开发健壮的软件系统带来困难。尤其在大型软件开发中,容易引入程序缺陷与错误。自动或半自动的程序缺陷探查工具,为开发者提供
随着互联网技术的普及和发展,人们的工作与生活越来越依赖于安全可靠的网络环境,为了能够实时掌握网络动态、保证网络正常高速的运转,网络管理员进行网络监测就非常必要。然而网