面向农业领域的垂直搜索技术的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:FY830126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的爆炸性增长,人们在网上查询所需信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这一矛盾。通用搜索引擎分布在不同领域、不同地方为用户提供服务,在早期设立较多,在当前的应用仍然是最广。虽然它相对容易实现相关检索,但其覆盖面狭窄,检索效率低,随着Web的迅速发展,已显得越来越力不从心了。为了改变这种状况,它们中的一些搜索引擎改变了原来收集综合信息的方式,转为集中收集某一领域的信息,为领域检索用户提供了较为精确的检索结果。如果在某个特定的领域内要得到相对全面、准确的搜索结果,就必须改变传统的搜索方式,面向某个特定领域的垂直搜索技术的研究即是在这一背景下产生的。然而对基于关键词的检索,同一个关键词在不同的领域具有着不同的意义,这也是造成通用引擎数据查准率低的原因,因为通用搜索引擎无法识别领域用户的真实意图。农业领域作为专题领域同样存在很多具有领域意义的一些关键词,如“富士”、“玉米”等,对于领域内检索用户,“富士”对应的是苹果而非富士数码或者富士山之类的数据,“玉米”对应的是农产品而非李宇春玉米基地数据。面向农业领域的垂直搜索技术的研究旨在搜索引擎能够理解领域用户的真实意图,反馈领域用户所需的数据信息。首先,在研究成员通用搜索引擎的选择策略及搜索引擎结果处理方法的基础上构建了元搜索引擎,其次分析了如何利用正则表达式抓取农业领域内网页信息内容,再结合领域分析的方法获取领域特征词完成农业领域网页特征库的构建,最终利用此特征库对元搜索引擎检索结果进行结果处理操作,并反馈最终结果。三部分结合完成农业领域内的垂直技术的研究。研究工作如下:首先,在了解了通用搜索引擎的分类及其关键技术基础之上,重点研究了元搜索引擎的结构原理和实现元搜索引擎过程中用到的关键技术:成员搜索引擎的选择策略和搜索引擎结果处理方法。在成员搜索引擎的选择策略问题上,对比了现有的成员搜索引擎选择方法,并对它们进行了分析、比较和评价,最终归纳设计了适合本文的成员搜索引擎的选择策略。此外,从检索效果来讲,成员搜索引擎反馈的查询结果信息总是希望能够更贴近于最终结果,然而根据成员搜索引擎各自查询机制查询的结果杂乱无章,结果处理操作是元搜索引擎构建的另一个重点,在对不同成员搜索引擎返回结果处理中,介绍了元搜索引擎在结果处理中一些常用的方法,对这些方法进行了比较分析,并提出了合适的搜索引擎结果处理的方法。其次,领域网页特征库的构建是为了对元搜索引擎初次检索结果集进行筛选排序处理的,以此来达到去除非领域相关网页和按照规则重排序的目的,实现查全到查准。因此网页特征库的构建是本文研究的重点。构建领域网页特征库的基础有二:一是在分析领域网站的基础之上,如何利用正则表达式对其信息内容进行抓取及抓取的效率;二是成功抓取网页信息内容后,如何再次利用正则表达式结合领域分析的方法对获取的信息内容加以分析最终完成领域网页特征库的构建。最后,探讨了如何利用领域网页特征库对元搜索引擎初步检索结果进行处理,并将最终结果反馈给领域用户。
其他文献
语义Web虽发展缓慢但却稳步发展。本体作为语义Web的核心部分受到了广泛关注并且还需寻找一些新的技术来实现本体的发展。为了使语义Web的研究切实可行,毫无疑问,本体映射和
VPN作为一种廉价安全的组网方案越来越受到企业用户的青睐。大多数现有VPN安全技术主要集中于用户身份的验证,以及传输数据保密性和完整性的保护,但是忽略了对客户端计算平台
随着计算机应用的迅速发展,Web的规模呈现爆炸式增长。搜索引擎作为人们网上冲浪必不可少的工具,得到了空前的发展。为了更好的完善搜索引擎的功能和性能,为人们上网时提供更
本文主要对PIM(Platform Independent Model)到EJBPSM(Platform Specific Model)转换进行了研究。介绍了模型驱动架构MDA的相关理论及技术,总结了对象约束语言OCL在MDA应用的
进入21世纪,面向服务架构(SOA)被视作是企业应用开发中的重要架构而得到长足的发展。起初,SOA仅仅是作为企业内部应用的架构模式,各应用通过服务的提供与消费来降低耦合。随
基于样例的纹理合成是近年来国内外一个比较活跃的研究领域,在计算机视觉、图像处理及计算机图形学等领域都占有重要的地位,有着非常广阔的应用前景。传统的基于样例的纹理合
图像分割是图像工程中一项基础而且十分关键的技术,它是图像分析和图像识别过程中首先要面临的问题,随着计算机处理能力的提高及对彩色图像应用的增加,彩色图像分割便受到了
将不同物种、不同进化水平的生物的相关序列进行比较分析,以发现生物序列中功能、结构等信息,是生物信息学研究的主要内容。序列比较的最基本操作就是比对。目前对双序列比对
图像匹配是指把两个或多个不同传感器所获取的同一地区的景物图像进行比较,确定出来或找到它们之间对应关系,以确定两幅图像之间的相对位置的过程,是一种重要的图像分析与处
随着银行卡业务的快速发展,自助设备在银行对外服务中的作用日渐突出。作为自助现金服务的主要渠道,自动柜员机(Automatic Teller Machine,以下简称:ATM)设备能够为客户提供2