论文部分内容阅读
目前的很多搜索需求已经从通用搜索转向关注于主题的搜索,但互联网主题信息所占比例小、分散度高,传统的搜索策略由于缺乏有效的内容预分析和过滤,爬取的无关主题网页过多,成为限制爬虫效率的瓶颈。因此如何利用有限的带宽及存储容量,迅速而准确地爬取主题网页就成了近年来搜索引擎网页爬取系统所关心的问题。
本文设计并实现了基于主题目录型网页发现的主题爬取子系统,该子系统是北京大学与惠普合作项目在线课程组织与管理系统OCOS的一部分,得到了惠普大学合作基金“在线课程组织”(编号HLCFY08-001)的资助。该子系统旨在有效地发现并识别主题,利用有限的带宽和时间,尽可能多并且准确地爬取课程相关的网页,之后通过提供给OCOS系统的后续模块适当的接口,从而有效整合来自国内外知名高等院校的课程资源,实现网上教育资源的广泛共享。
目前国内外主题爬取技术仍未十分成熟,从利用背景数据来看,有网页全文、锚文字、扩展锚文字、URL文字、元数据等;从优先级预测技术来看,有只基于内容、结合链接结构与内容的方法等。但是很多方法都存在一些问题,缺乏通用的高效的主题爬取技术,。
本文以锚文字和URL文字为研究对象,在内容分析的基础上,结合链接结构的分析,发现课程网页分布的特点,提出以修改的主题相关的HITS算法为基础,通过计算词的主题目录、权威值预测链接的目录、权威值,进而划分优先级,最后按优先级进行爬取的框架,旨在发现主题目录型网页提高主题爬取的性能。
本文的创新在于以下几点:
1.将HITS算法引入到主题爬取技术中。修改原始的HITS算法,使之与主题相关,较好地给予网页主题目录型、权威性的评分。
2.提出并调整从网页的主题目录值、权威值计算词的主题目录值、权威值的计算公式,并通过参数取得较好结果。
3.综合考虑链接结构和内容的影响,提出并调整从词的主题目录值、权威值预测链接主题目录值、权威值的计算公式。
4.提出并实现英文网页不规范词切分方法,融合于主题爬取器中,显著提高了性能。