论文部分内容阅读
随着互联网的快速发展,网上内容极大丰富,为了在海量资源中快速获取有价值的信息,用户趋向于利用搜索引擎检索信息。市场需求的多元化促使专业搜索引擎和特定领域的门户网站在近几年越来越受欢迎,这些也被称为垂直引擎和垂直门户网站。传统的垂直搜索引擎仍采用基于关键词或者文本内容的检索方式,这种检索方式不能充分表达语义信息,只能从关键词表达的语义层次上来处理用户请求。究其原因是在文档收集时,未对文档进行语义标注,在搜索查询时,无法对用户请求进行语义处理,难以提供用户更准确全面的的检索结果。本体技术的引入,将其与搜索引擎相结合,已成为搜索引擎主要发展方向。针对信息资源的不断增加,搜索引擎需要一种快速的索引方法,以提高索引的效率。对大规模文本构建索引涉及较大的数据量和计算量,会消耗大量计算资源,如何实现海量文本数据高性能索引,是搜索应用中不可或缺的议题。本文就怎样构建领域本体及怎样将本体技术与搜索引擎结合起来的问题进行了研究,给出了基于本体的美食垂直搜索引擎框架和具体的实现方法,并采用了一种加速索引构建的模型。本文完成的工作主要有:(1)分析美食领域的相关信息,完成美食领域本体构建,对本体中的概念类、关系和属性进行定义和描述,更好的整合美食领域的知识。(2)根据美食网站的特点,使用基于规则的信息抽取技术完成美食领域本体实例的自动构建,为用户查询请求的语义分析和语义扩展打下基础。(3)分析索引的构建机制,采用了CPU和GPU的任务协作模型,充分发挥CPU和GPU的计算优势,提高索引构建的性能。(4)探讨了语义扩展的流程,在美食领域本体指导下分析和扩展了用户的查询请求,实现了语义信息检索。