论文部分内容阅读
搜索引擎是目前最主要的Web信息检索工具,然而搜索引擎的效果还不能令人满意。因此,在搜索结果返回用户前需要有一个检索后处理过程,即主题精选过程。当前很多Web检索系统能以页面和站点两种粒度向用户提交检索结果,但现有的主题精选算法均以页面粒度来建立链接图。这种模型不仅不能满足用户多粒度的信息需求,而且意味着给不同的Web站点作者规定了不平等的影响权重。此外,主题精选经典算法HITS的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。本文对HITS进行改进,提出一种结合内容分析与链接分析的多粒度主题精选算法g-HITSc。算法可根据用户选择以页面或站点粒度构造链接图,通过内容分析计算图中结点的主题相关度权重并排除低相关度结点,运用加权I/O操作进行迭代计算。理论分析和实验结果表明新算法能避免主题偏移并识别更为合理和有意义的权威信息源与中心信息源。