论文部分内容阅读
主题爬虫有选择性地采集互联网中网页资源,这些网页资源都必须是用户所给定主题相关的,即网页内容是用户所感兴趣的。在经典主题爬虫中,如果文档词项集与主题词项集没有相同词项,此主题爬虫就判定此文档与主题不相关,即相关度为0,而一般的语义主题爬虫能够合理地获取此文档与主题的相关度。然而,这些语义主题爬虫仍然存在诸多问题:锚文本的主题相关度带有局部性、未访问URLs优先值考虑因素不全面、文档的主题相关度计算模型存在瑕疵、未访问URLs优先值算式的加权因子的确定带有随意性。为解决上述问题,本文主要研究工作如下:(1)本文提出语义相似度向量空间模型(SSVSM),SSVSM用于计算文档和主题的相似度。SSVSM主要构建文档语义向量与主题语义向量,此两语义向量都对应到同一语义空间中,即此两语义向量都是同一双词项集并且两语义向量有相同的维数,再将两个语义向量的余弦值(内积)作为此文档与主题的相似度。(2)本文提出将细胞型膜计算优化算法(CMCOA)应用到主题爬虫中,CMCOA用于优化未访问URLs优先值算式的加权因子。在主题爬虫中,CMCOA首先将所有加权因子所构成的向量当作每个膜内一个对象。然后,通过每个膜的交流规则与进化规则选出最优的对象,即对应的训练URLs的主题相关度的训练值与估算值的均方根误差最小。最后,将此最优对象所对应的加权因子作为未访问URLs优先值算式的最优加权因子。(3)本文提出基于语义理解与智能学习的主题爬虫。此爬行策略主要将网页全文本、链接锚文本、链接上下文、网页标题作为超链接的四个文档,并将未访问URLs的的四个文档的主题相关度与相应的四个加权因子整合为未访问URLs的排序优先值。此外,此四个文档的主题相关度通过SSVSM获得,而相应的四个加权因子通过CMCOA获得。