论文部分内容阅读
随着互联网的普及和Web信息量的增长,越来越多的用户倾向于使用搜索引擎获取各种信息。目前,搜索引擎主要分为两类:通用搜索引擎和垂直搜索引擎。其中,垂直搜索引擎是针对通用搜索引擎信息量大、查询不准确等问题提出来的新型搜索引擎服务模式,是搜索引擎行业细分化的必然趋势。但是垂直搜索引擎仍采用基于关键词的检索方式,无法满足用户语义检索的要求。产生这种问题的根本原因是搜索引擎搜集的文档缺乏语义标注信息,导致在信息检索阶段,搜索引擎无法对用户的查询请求进行语义分析,而本体能够完成语义信息的标注,实现语义搜索,将本体技术与搜索引擎结合成为研究语义搜索引擎的重要手段。因此,本文主要研究了领域本体的构建方法、基于本体的结构化信息抽取方法和利用领域本体对用户的查询请求进行语义查询扩展等技术,提出了一种基于本体的垂直搜索引擎框架结构,并设计实现了原型系统。本文完成的工作主要有:(1)通过对餐饮信息的分析构建了餐饮领域本体EnCatering,包括餐饮店铺类、菜品类、店铺评论类和地址信息类,对各类的属性和类之间的关系进行定义和描述,更好地实现餐饮领域知识的表示和信息组织。(2)根据餐饮网站的特点,使用基于规则的信息抽取技术完成餐饮领域本体实例的自动构建,为用户查询请求的语义分析和语义扩展打下基础。(3)对本体中的概念、属性、关系和实例建立索引,利用索引完成对用户查询请求的语义分析和扩展,实现语义信息检索,着重探讨了关键词-本体实体匹配的策略和查询语义扩展的流程。最后设计实现了基于本体的餐饮垂直搜索引擎Catering Search。实验表明,Catering Search能较好地解决目前基于关键词检索中存在的问题,说明基于本体的垂直搜索具有实际意义。