论文部分内容阅读
随着互联网技术的快速发展,网络信息资源呈现出爆炸性增长态势,如何快速找到满足用户需求的信息成为越来越重要的问题。目前,搜索引擎已成为互联网最重要的应用之一,传统的通用搜索引擎为所有用户提供统一接口,但随着信息量的持续增长,其已不能满足特定领域用户对信息准确性、实时性和深度等多方面的个性化需求,因而,专门用来查询某一学科领域或主题的搜索引擎即“垂直搜索引擎”应运而生,并得到快速的发展和广泛的应用。本课题来源于星火计划项目,立足于粮食主产区农业现实状况,针对农业信息化中普遍存在的信息资源共享程度低的问题,尤其是大豆产业信息化建设,为从事大豆生产加工、科研及流通工作的人员提供共享数据资源。本文采用垂直搜索技术对互联网上农业领域中的大豆相关信息进行采集、过滤,为以“中国大豆网”为标志的门户网站构建大豆信息库,同时,设计了面向大豆主题的垂直搜索引擎构架,对其关键技术开展研究,并实现了原型系统。本文的主要研究内容如下:(1)首先,明确本文研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;其次,对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计。(2)网页信息采集的核心是网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地。主题网络蜘蛛与通用网络蜘蛛最大的区别是,前者是有选择地抓取主题相关的页面,而后者则是“见网页就抓”。本文对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进。(3)索引可以提高检索效率,本文索引能够有效提高管理与审核模块加载数据的速度。索引对象是经过中文分词处理的网页文档,中文分词就是将连续的字序列拆分成词序列的过程。本文对已有的分词算法和倒排索引技术以及开源Lucene索引框架的索引过程和搜索过程进行研究,由于Lucene自带的中文分词不够精确,因此,采用基于IKAnalyzer分词的Lucene索引框架。(4)基于上述研究,按照软件工程学的理论对面向大豆主题的垂直搜索引擎原型系统进行实现,主要是对该系统中的网页信息采集、索引和管理与审核模块进行实现,最终为大豆门户网站提供大豆相关数据。综上所述,本文以国内主要大豆网站为初始抓取的目标网站(如中国农产品交易网、中国粮油信息网、黑龙江省农业信息网、天下粮仓等),基于Java技术对面向大豆主题的垂直搜索引擎原型系统进行实现,为大豆门户网站提供数据支撑,同时,为面向大豆主题信息的查询提供了理论基础,本文的研究也可作为其他农业主题搜索引擎的参考。