基于本体的旅游领域Deep Web查询接口集成

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:xjw308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet与网络技术的迅猛发展,万维网上的信息以海量方式增长,然而我们却不能快速而准确获取有效的信息。因为这些信息大多隐藏在深网里,需要通过查询接口在线访问后台数据库,而且在深网里,这些数据不仅以指数增长,还存在异构性和动态性。传统的搜索引擎只能进行静态页面的搜索,不能满足这一要求,因此Deep Web的数据集成成为目前研究的热点之一。目前针对Deep Web数据集成的研究有Stanford大学Raghavan和Garcia-Molina的HiWE研究小组、Colombia大学Panagiotis G.Ipeirotis等人的Qprober研究小组和电子商务集成系统Wise-Integrator以及人民大学孟小峰教授带领的研究小组。本文针对Deep Web数据集成的国内外研究现状,提出了基于本体的旅游领域Deep Web查询接口集成的架构,并给出Deep Web数据集成中数据源的发现和分类的相应算法。本文主要工作和创新如下:第一,介绍了Deep Web数据集成的国内外研究现状,提出了基于本体的旅游领域Deep Web查询接口集成的架构。第二,建立了旅游领域的本体知识树,将Deep Web数据源查询接口的查找与领域的分类合并成基于领域的Deep Web数据源发现,并以旅游领域Web页面为例,首先利用NekoHTML对网页进行规范化,然后通过启发式规则将表单去噪,再在大量观察了接口的特征及充分利用了中文特点设计了相应的启发式规则及利用DOM接口自动将html代码转换成拥有我们需要的数据源特征的DOM树,与本体知识树匹配,找到领域的Deep Web数据源查询接口,从中提取form表单。最后用实验进行验证,表明该方法对实现领域Deep Web数据源集成的半自动化、自动化有较强的现实意义。第三,阐述了Deep Web数据源查询接口的分类问题。根据Deep Web数据源小样本、高维特征以及中文语义特点,本文首先将Deep Web数据源查询接口形式化表达出来,并转化成向量模型;接着利用粒子群算法对其进行优化提取特征向量,并设计将接口的147维向量集合模型转化为15维向量集合模型,最后转化为二维向量模型;最后,在MATLAB上进行仿真实验,对Deep Web数据源查询接口分类的三种方法进行了对比,得出降维后和不降维数据源的分类不受明显影响,但降维能节约计算机的计算量,用svc分类比用knn分类效果好。总之,Deep Web查询接口集成技术为尚处于起步阶段,国内有了实验原型,但诸多关键技术细节实现尚需要深入探索,与具体应用阶段相距甚远。本文下一步的工作是研究发现隐蔽的查询接口,改进Deep Web查询接口分类的算法。
其他文献
随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问
学位
Linux操作系统优异的可靠性、良好的可裁减性、广泛的技术支持,受到了技术界的推崇和赞许,并在许多产品中得到了大量地使用。现在它已经支持几乎所有主流的32位CPU,新的2.6版内核
随着计算机技术与网络技术的普及与广泛应用,工作流技术得到了前所未有的重视和发展。工作流管理系统是实现计算机辅助协同工作的工具,能实现工作流程的全部或部分自动管理功
近年来,随着因特网的普及,电子商务在我国迅速发展起来。C2C作为电子商务的一种重要模式,在我国有着更为强劲的发展势头。但是,网上交易的信任问题已经成为阻碍电子商务发展的瓶
随着网络应用的飞速发展,为保证网络的可靠性,多数园区网采用多重ISP(Internet Service Provider)链路接入因特网。这些园区网中有着大量的客户群,网络拓扑结构错综复杂。在当今
互联网的高速发展使得现有的互联网体系架构已经不能满足人们日益增长的多样化需求,为此相关学者将虚拟化技术应用到网络体系架构中,通过网络虚拟化支持多网络体制并存来解决
信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息,并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法,且通
圆柱形零件在现代制造业中有着非常广泛的应用,而圆柱形零件本身质量的优劣对于其制成品的质量也有很重要的影响。因此,圆柱度误差作为衡量圆柱形零件形状误差的一个重要指标,已
当软件发生变更时,如添加新的功能或修正错误后,就需要进行回归测试,以确保这些变更不会对软件产生负面影响。然而频繁的回归测试带来的开销,特别是时间上的开销很大,约占软件维护