基于Nutch的食品安全信息垂直搜索引擎研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:by_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息过载导致人们越来越倚重搜索引擎,面向特定领域或学科的垂直搜索引擎是搜索技术的细化和拓展,它针对特定用户提供垂直搜索。当前在食品安全领域,食品安全信息的获取基本靠百度谷歌等通用搜索引擎查询,无法满足用户对于快速、准确查找信息的需求。针对食品安全主题为用户提供查询的相关研究还不是很多。本文针对通用搜索引擎不能满足用户对于食品安全信息领域的问题,研究设计基于食品安全信息主题的垂直搜索引擎。本文针对食品安全信息主题,做了如下研究和创新:(1)网页排序算法是搜索引擎好坏的关键,搜索引擎的结果排序算法是从杂乱无章的海量数据库中把与查询词主题相关的页面按权威度排序,帮助用户快速找到所需信息。开源搜索引擎Nutch只实现了一个基本的综合排序模型,不能满足专业用户对于特定领域的需求。本文改进了PageRank算法并把改进后的算法加入到Nutch的排序模型之中,使其更具主题倾向性。算法的改进包括:根据出链站点的不同对权值进行差异化分配;加入时间衰减因子降低陈旧网页的评分;结合页面链接关系和页面内容主题相关性来建立网页排序模型。实验表明改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。(2)研究主题爬虫的基本原理和重要技术,提出了一个针对食品安全领域的爬虫模型。其中的关键技术包括:通过人工专家和搜索引擎相结合的方式选择初始URL种子;通过训练文本进行关键词抽取来构建食品安全信息主题词库;应用向量空间模型判断主题的相关性。(3)结合上述的研究,本文设计了一个面向食品安全信息的垂直搜索引擎。通过主题爬虫和改进的网页排序模型,为用户提供一个快速、准确查找食品安全信息的搜索引擎。
其他文献
情感机器人就是运用人工的方法和技术赋予机器人类似人的情感,使机器人具有自主性,能够在情感机制的作用下调节自身的行为选择。多情感机器人任务分配问题即在传统的任务分配问
人脸表情是进行交往和表达情绪的一种重要手段,不经过特殊训练,人类对其面部表情往往很难掩饰,所以,通过对人脸表情进行分析,可以获得重要的信息。人脸表情识别是人机交互的
自治水下机器人(Autonomous Underwater Vehicles,AUV)是具有一定自主能力的智能化水下设备,能在特定的环境任务信息下执行人类自身所不能进行的高难度、高危险作业任务。随着
目前许多网站与应用仍使用安全性较差﹑易受攻击的验证码,且尚不存在设计验证码和评估其安全性的系统与标准。验证码图像识别涉及到图像处理﹑模式识别等多种领域的相关知识,对其进
就目前现状,建筑信息模型(Building Information Modeling,BIM)理念,即在整个建筑行业中的各个部门(如:施工企业,政府部门,设计机构,建设单位等)之间协同工作的概念已经成为
随着网络的高速发展和硬件水平的提高,互联网感知技术扮演的角色愈发重要。由于网络应用程序复杂化和个人隐私的重视,流量识别作为最典型的网络感知技术,正在从基于端口和深层数
近年来,Hadoop技术不管是在科研方面还是在应用方面都取得了巨大的发展,作业调度技术作为Hadoop平台的核心技术之一,其目的是调度作业执行的顺序和分配计算资源。作业调度算法的
计算机和互联网是二十世纪最重要的发明,随着计算机和互联网技术的迅速发展和应用,人类迅速跨入了信息时代。人们在互联网上共享和传播的信息随着网络带宽的迅速增长,由最初
学位
图像融合技术能够有效地提高图像信息的利用率、目标探测的准确性及图像的解译能力。目前比较流行的融合方法是基于多尺度几何分析工具的图像融合方法,其中最具代表性的是Shea