基于目录型网页的课程资源爬取子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：liaozhouyi

【摘要】

：

目前的很多搜索需求已经从通用搜索转向关注于主题的搜索，但互联网主题信息所占比例小、分散度高，传统的搜索策略由于缺乏有效的内容预分析和过滤，爬取的无关主题网页过多，成为限

【作者】

：

周毅

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

【关键词】

：

目录型网页课程资源主题爬取系统设计 HITS算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前的很多搜索需求已经从通用搜索转向关注于主题的搜索，但互联网主题信息所占比例小、分散度高，传统的搜索策略由于缺乏有效的内容预分析和过滤，爬取的无关主题网页过多，成为限制爬虫效率的瓶颈。因此如何利用有限的带宽及存储容量，迅速而准确地爬取主题网页就成了近年来搜索引擎网页爬取系统所关心的问题。本文设计并实现了基于主题目录型网页发现的主题爬取子系统，该子系统是北京大学与惠普合作项目在线课程组织与管理系统OCOS的一部分，得到了惠普大学合作基金“在线课程组织”(编号HLCFY08-001)的资助。该子系统旨在有效地发现并识别主题，利用有限的带宽和时间，尽可能多并且准确地爬取课程相关的网页，之后通过提供给OCOS系统的后续模块适当的接口，从而有效整合来自国内外知名高等院校的课程资源，实现网上教育资源的广泛共享。目前国内外主题爬取技术仍未十分成熟，从利用背景数据来看，有网页全文、锚文字、扩展锚文字、URL文字、元数据等；从优先级预测技术来看，有只基于内容、结合链接结构与内容的方法等。但是很多方法都存在一些问题，缺乏通用的高效的主题爬取技术，。本文以锚文字和URL文字为研究对象，在内容分析的基础上，结合链接结构的分析，发现课程网页分布的特点，提出以修改的主题相关的HITS算法为基础，通过计算词的主题目录、权威值预测链接的目录、权威值，进而划分优先级，最后按优先级进行爬取的框架，旨在发现主题目录型网页提高主题爬取的性能。本文的创新在于以下几点： 1.将HITS算法引入到主题爬取技术中。修改原始的HITS算法，使之与主题相关，较好地给予网页主题目录型、权威性的评分。 2.提出并调整从网页的主题目录值、权威值计算词的主题目录值、权威值的计算公式，并通过参数取得较好结果。 3.综合考虑链接结构和内容的影响，提出并调整从词的主题目录值、权威值预测链接主题目录值、权威值的计算公式。 4.提出并实现英文网页不规范词切分方法，融合于主题爬取器中，显著提高了性能。

其他文献

关系强化学习研究

强化学习是与传统的监督学习完全不同的学习框架。在强化学习中，agent感知环境的状态并采取相应的动作，同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识，而是通过

学位

关系强化学习马尔科夫逻辑网RLMLN算法一阶逻辑回归树内存消耗

一种软件体系结构设计决策建模工具的设计与实现

软件体系结构作为高层的设计蓝图，在软件系统开发的过程中，其主要角色包括：支持开发人员之间的交流、直接支持系统开发、支持软件复用等。目前存在的问题是软件体系结构设计不断

学位

软件体系结构设计决策建模工具Edlipse插件建模方法

基于最弱前置条件计算的软件测试与错误定位方法研究

如今，软件在人们的社会生活中占据越来越重要的地位，软件的正确性也受到人们越来越多的重视。特别是随着敏捷开发、开源软件等快速迭代开发模式的出现，人们对软件的安全可信提出

学位

软件测试错误定位符号执行最弱前置条件

面向SOA的AJAX框架的研究与设计

随着现代软件工程和开发技术的发展，SOA技术以其灵活高效的优势赢得了普遍的支持，并已经在分布式计算方面形成了一场革命。而另一方面人们逐渐进入了Web2.0时代，AJAX技术成为Web

学位

AJAX框架面向SOA数据接口控件逻辑视图管理模式HDWR框架

基于紧框架的快速磁共振成像方法研究

为了实现磁共振快速成像，一种可行的方法是减少K空间数据的采集量。然而，基于欠采样K空间数据进行磁共振图像重建的问题是一个病态的反问题。由于压缩感知理论的出现，基于稀疏性

学位

磁共振成像图像重建紧框架迭代特征修正

一种基于概念层次结构的本体评价方法的研究

在本体构建和应用过程中，知识表示的正确性、表达性，以及是否可被共享和复用，将直接影响到对本体的正确应用。本体评价作为把握上述问题的必要手段之一，目前已经得到越来越多的研

学位

本体构建概念层次结构评价体系功能验证可扩展性

隐私保护层次聚类方法设计及其在移动通信客户行为分析中的应用

随着数据挖掘技术的日益发展，数据隐私和信息安全逐渐引起人们的关注。如何保护私有信息或敏感信息在挖掘过程中不被泄露，已经成为数据挖掘研究中的一个很有意义的研究课题。

学位

移动通信数据挖掘隐私保护客户行为分析聚类分析PPH算法

分布式文件系统元数据服务性能关键技术研究

大数据时代，分布式文件系统存储服务面临巨大的压力与挑战，元数据管理技术是新型分布式文件系统实现可扩展性的关键因素，近年来受到了工业界和学术界的普遍关注。相比于数据，元数

学位

分布式文件系统元数据服务性能树形结构

基于横切关注点的程序缺陷探查工具的设计与实现

近年来，计算机软件规模迅速扩张，软件功能日渐复杂，给开发健壮的软件系统带来困难。尤其在大型软件开发中，容易引入程序缺陷与错误。自动或半自动的程序缺陷探查工具，为开发者提供

学位

软件开发缺陷分析探查工具特征抽取横切关注点

频繁模式挖掘在网络监测中的应用

随着互联网技术的普及和发展，人们的工作与生活越来越依赖于安全可靠的网络环境，为了能够实时掌握网络动态、保证网络正常高速的运转，网络管理员进行网络监测就非常必要。然而网

学位

校园网网络监测网络流频繁模式数据挖掘滑动窗口模型

基于目录型网页的课程资源爬取子系统的设计与实现

与本文相关的学术论文