论文部分内容阅读
互联网信息过载导致人们越来越倚重搜索引擎,面向特定领域或学科的垂直搜索引擎是搜索技术的细化和拓展,它针对特定用户提供垂直搜索。当前在食品安全领域,食品安全信息的获取基本靠百度谷歌等通用搜索引擎查询,无法满足用户对于快速、准确查找信息的需求。针对食品安全主题为用户提供查询的相关研究还不是很多。本文针对通用搜索引擎不能满足用户对于食品安全信息领域的问题,研究设计基于食品安全信息主题的垂直搜索引擎。本文针对食品安全信息主题,做了如下研究和创新:(1)网页排序算法是搜索引擎好坏的关键,搜索引擎的结果排序算法是从杂乱无章的海量数据库中把与查询词主题相关的页面按权威度排序,帮助用户快速找到所需信息。开源搜索引擎Nutch只实现了一个基本的综合排序模型,不能满足专业用户对于特定领域的需求。本文改进了PageRank算法并把改进后的算法加入到Nutch的排序模型之中,使其更具主题倾向性。算法的改进包括:根据出链站点的不同对权值进行差异化分配;加入时间衰减因子降低陈旧网页的评分;结合页面链接关系和页面内容主题相关性来建立网页排序模型。实验表明改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。(2)研究主题爬虫的基本原理和重要技术,提出了一个针对食品安全领域的爬虫模型。其中的关键技术包括:通过人工专家和搜索引擎相结合的方式选择初始URL种子;通过训练文本进行关键词抽取来构建食品安全信息主题词库;应用向量空间模型判断主题的相关性。(3)结合上述的研究,本文设计了一个面向食品安全信息的垂直搜索引擎。通过主题爬虫和改进的网页排序模型,为用户提供一个快速、准确查找食品安全信息的搜索引擎。