农业垂直搜索引擎语义化若干问题的研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lbxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量的农业技术、供求信息、市场信息、政策法规和农业新闻等信息资源分布在互联网上农业网站中。然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对农业信息资源进行整合和利用。针对这个问题,在国家自然基金(“农业复杂自适应搜索模型研究”)的支持下,面向农业的搜索模型—搜农应运而生。然而该模型还是基于文本关键字匹配的数据处理方式,不能充分理解信息包含的语义信息,在准确率和召回率这两大信息检索系统性能指标上还有很大提升空间。针对这个问题,本文根据网络农业资源的特点,在农业领域本体构建的基础上,将本体作为领域知识库应用于垂直搜索引擎的数据预处理、数据索引和用户检索三个环节,将本体的语义添加到搜索引擎的数据处理过程中。相对于原有模型,数据预处理环节的语义改进主要包括:信息的空间属性的抽取、信息地理名称的实体解析和价格动态变化的关系抽取;索引环节的语义改进主要包括:文档的语义标注和语义扩展;用户检索环节的改进包括:在语义标注环境下普通用户的检索策略和基于用户模型的语义扩展方法。论文的主要研究内容总结如下:1.针对网络上农业资源空间属性表达的多样性、显性表达的缺失等问题,本文提出一种借助领域本体和WEB搜索引擎构建知识库抽取并判别信息的空间属性的方法,将语义添加到信息的空间属性抽取过程中。2.针对农业地理名称实体解析的问题,本文提出一种将空间属性抽取算法和Markov逻辑网络进行结合进行地理名称实体解析的方法,将空间属性抽取中的语义信息带入到地理名称的实体解析过程中。3.针对从大量非结构化的文本中抽取价格变化关系的问题,本文设计了一种基于条件随机场进行关系抽取,并用领域本体对抽取的结果进行语义上的统计合并的农产品价格变化关系抽取方法。4.针对农业领域资源的特点,本文提出一种结合领域本体和句法分析相结合的核心词汇抽取方法,并依据本体对文档主题进行推断,与本体中的概念进行语义关联;另一方面对文档中抽取的核心词汇基于领域本体进行语义扩张。5.在用户检索环节,针对索引中文档和本体概念的语义关联状况,设计了普通用户双索引检索的机制;对注册用户基于本体构建用户模型,并基于用户模型对查询进行语义扩展。6.最后,本文给出了面向农业的垂直搜索引擎的整体的语义化设计。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
血液灌流其是一种血液净化技术,可以有效地清除身体内的毒物。其是以在体外循环的系统来在患者身上装上吸附剂,利用此种方法可以有效地清化血液。而血液透析(HD)以清除小分子物
针对影响中小博物馆文物保存环境提升的主要因素,介绍了中小博物馆的环境控制思路以及西汉南越王博物馆的具体控制方法。在文物保存环境控制中,预防性保护、维持环境稳定和环
随着互联网上的图像数量呈几何级数快速增长,快速有效地寻找所需的图像变得越来越困难。利用语义进行图像的组织、检索和推荐,可以提高图像的获取效率,因此是计算机视觉的一
<正>自1998年来,检察机关的信息公开经历了从检务公开到案件信息公开、再到检察信息公开的重要转变。但实际上,检察机关对这一转变还存在理论准备不足和实践应对不力的问题,
针对五子棋棋型定义不准确、棋型不充足等问题,提出了一套改进的五子棋棋型模型和估值方法.针对利用极小极大值搜索和Alpha Beta剪枝算法对此棋型模型着棋时存在效率低和博弈
随着中国新兴能源的大规模开发利用,抽水蓄能电站的配置由过去单一的侧重于用电负荷中心逐步向用电负荷中心、能源基地、送出端和落地端等多方面发展。
目的探讨肾脏替代疗法治疗腹部创伤后腹腔间室综合征的临床效果。方法选择2015年9月至2017年1月我院收治的腹部危重症患者60例为研究对象,将所有患者随机分为治疗组(给予常规
《景岳全书》记载了大量急诊重症的资料。张景岳详细地阐释了急诊重症的疾病名称;在前人对疾病认识的基础上,通过自身的理解,总结了急诊重症的病因病机;客观而翔实地描述了急