论文部分内容阅读
随着近几年经济飞速发展和人民生活水平的提高,健康问题也越来越受人们重视。而在使用当前传统搜索引擎搜索健康领域信息时,搜索结果中往往存在大量的广告信息,并且专业性、权威性较差。针对该问题,本课题基于改进的Shark-Search算法实现了一个健康领域的垂直搜索引擎,课题主要工作如下:(1)对Shark-Search算法的不足进行改进。针对Shark-Search算法使用链接上下文计算导致噪音链接对主题链接判定产生负面影响的不足,将链接上下文改为使用网页标题来计算,其他计算因素不变;针对Shark-Search算法的“近视问题”,提出将Shark-Search算法与OPIC算法相结合。通过实验表明Shark-Search改进算法较Shark-Search算法、OPIC算法、shark-PageRank算法在查准率上分别提高了7.8%、14.1%、0.9%,在查全率(目标召回率)上分别提高了 11.8%、17.7%、2.9%。(2)基于改进的Shark-Search算法实现健康领域的爬虫,并基于爬取的数据开发了一个健康领域的垂直搜索引擎。将本垂直搜索引擎与百度和必应搜索对比测试,结果表明本垂直搜索引擎在搜索健康关键词时在结果的前100个网页中主题相关性表现更好。本文的创新点在于:1、在Shark-Search算法中考虑使用网页标题来替代链接上下文来做主题相关度计算,避免噪音链接对主题链接判定产生影响。2、提出将Shark-Search算法与OPIC算法相结合,这不仅改善了Shark-Search算法的“近视问题”,在一定程度上消除了 OPIC算法的“主题漂移”问题。