论文部分内容阅读
随着互联网的发展,人们已经习惯了从网络上获取信息。主题搜索引擎越来越受到学术界和企业界的广泛关注。主题搜索引擎主要搜集那些与特定主题相关的网页。主题爬虫是主题搜索引擎的资源采集器,在遍历网络资源的同时会对所采集的网页与特定主题作相关度判断,按照相关度值的大小为一个待爬URL指定一个相应的优先级分值。从而可以保证下载相关网页而舍弃那些偏离主题的网页,使搜集回来的结果更能满足用户的需求。本文提出了一种基于最优化层次的概念背景图的主题爬行策略,该策略首先需要用户向知名搜索引擎提交查询词,然后从返回的网页链接挑中选几个用户最满意的初始网页,作为本研究的初始种子集。其次,下载种子集对应的网页并且提取网页上的特征词构建概念背景图。然后,在Yahoo!目录上选择不同层次的主题进行概念背景图的分层研究。最后,提出了概念背景图的动态更新方法。论文的主要研究内容包括以下几点:1.提出了一种对传统概念背景图进行层次优化的方法。通过将一个完整的概念背景图进行分割成不同的子概念背景图,分别研究每个子概念背景图对网络爬虫的指导性能。2.提出了最优概念背景图的概念。传统概念背景图往往包含了相应的概念格中的全部概念。这样就把概念格中的所有概念全部分到传统概念背景图的相应层次,那些和核心概念有低相关性的概念就影响了指导性能。3.在最优化概念背景图的基础上提出了对概念背景图进行动态更新方法。概念背景图一般都是根据初始选中的种子集页面和页面相应的特征词进行构建的。但是,在指导主题爬行的过程中,往往会发现更多的与主题贴近的网页。为了使概念背景图保持活性,本文需要不断对先前的与主题相似度较低的概念进行替换。在替换过程中,动态概念背景图(DCCG)采用了一种淘汰机制,内层概念逐渐取代外层概念。论文利用经典的召回率、精确度、F-Measure三种度量指标将最优概念背景图与传统的概念背景图进行了比较。同时,也将动态概念背景图与可以更新的概念背景图进行了对比。结果显示,本文的策略有一定的优势和可行性。