论文部分内容阅读
现今随着Web信息指数化的增长,传统的基于整个Web的信息采集技术由于其采集的主题范围过于广泛,导致无法保证对信息的及时更新,并且较少考虑采集信息是否与查询主题相关,已经满足不了人们对个性化信息检索服务日益增长的需求。面向主题的信息采集技术由于其采集信息的内容只限于特定主题或专门领域,在搜索过程中无须对整个Web进行遍历,只需选择与主题相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。本文对国内外基于主题的信息采集领域的发展状况进行了详细的研究,分析了信息采集的工作原理,针对传统通用信息采集自身固有的缺陷,根据主题页面在Web上的分布特征,结合本体的相关理论及语义分析相关知识,在对链接、页面与主题相关性判定技术的深入研究基础上,提出了一种基于语义分析的主题信息采集的相关模型,该模型以本体构建领域知识概念集,结合语义计算,预测与主题相关的URL并对采集的页面进行进一步的过滤,同时结合现有开源技术对该功能模型进行了详细的设计与实现。语义分析是本文的重点,它是预测URL链接,采集主题相关页面,过滤无关页面的核心技术。本文在对“知网”进行详细研究的基础上,分析计算词语之间的相关度及相似度,并着重介绍了利用知网进行多义词词义消岐,获取链接扩展元数据、主题及页面内容的义项集及义原集的相关算法。本文利用词汇的语义计算,从语义和概念层对文本及链接进行主题相关性分析,将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合,在对传统PageRank算法分析研究的基础上加以改进,提出了一种基于语义计算的KPageRank(Knowledge-based Pgae Rank)算法,利用链接扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定,则在目前较为常用的向量空间模型的基础上,再进行语义分析,以进一步提高信息采集的准确率及效率。实验结果表明,该模型同传统的网络爬虫模型相比具有较高的信息抓取准确率。