结合内容与链接分析搜索特定主题的权威Web信息源

来源 :河海大学 | 被引量 : 4次 | 上传用户:yxl0173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是目前最主要的Web信息检索工具,然而搜索引擎的效果还不能令人满意。因此,在搜索结果返回用户前需要有一个检索后处理过程,即主题精选过程。当前很多Web检索系统能以页面和站点两种粒度向用户提交检索结果,但现有的主题精选算法均以页面粒度来建立链接图。这种模型不仅不能满足用户多粒度的信息需求,而且意味着给不同的Web站点作者规定了不平等的影响权重。此外,主题精选经典算法HITS的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。本文对HITS进行改进,提出一种结合内容分析与链接分析的多粒度主题精选算法g-HITSc。算法可根据用户选择以页面或站点粒度构造链接图,通过内容分析计算图中结点的主题相关度权重并排除低相关度结点,运用加权I/O操作进行迭代计算。理论分析和实验结果表明新算法能避免主题偏移并识别更为合理和有意义的权威信息源与中心信息源。
其他文献
随着对外开放的不断深入,我国英语学习者的数量急剧增加,对英语学习者的文章进行相关分析研究显得日趋重要。英文作文智能评改系统综合利用自然语言处理、统计学、语料库语言
随着信息技术的飞速发展,特别是互联网技术的普及,每天产生的数据呈现爆炸式增长,这些数据基本都具有:高速到达、数据量大、实时性要求高等特点,是典型的数据流。如今,数据流
近些年随着互联网和流媒体技术的发展,流媒体服务逐渐成为互联网的重要应用,并且趋向于向大规模、高质量的方向发展。大规模流媒体服务也成为近年来的研究热点。相关研究表明