论文部分内容阅读
随着Internet与网络技术的迅猛发展,万维网上的信息以海量方式增长,然而我们却不能快速而准确获取有效的信息。因为这些信息大多隐藏在深网里,需要通过查询接口在线访问后台数据库,而且在深网里,这些数据不仅以指数增长,还存在异构性和动态性。传统的搜索引擎只能进行静态页面的搜索,不能满足这一要求,因此Deep Web的数据集成成为目前研究的热点之一。目前针对Deep Web数据集成的研究有Stanford大学Raghavan和Garcia-Molina的HiWE研究小组、Colombia大学Panagiotis G.Ipeirotis等人的Qprober研究小组和电子商务集成系统Wise-Integrator以及人民大学孟小峰教授带领的研究小组。本文针对Deep Web数据集成的国内外研究现状,提出了基于本体的旅游领域Deep Web查询接口集成的架构,并给出Deep Web数据集成中数据源的发现和分类的相应算法。本文主要工作和创新如下:第一,介绍了Deep Web数据集成的国内外研究现状,提出了基于本体的旅游领域Deep Web查询接口集成的架构。第二,建立了旅游领域的本体知识树,将Deep Web数据源查询接口的查找与领域的分类合并成基于领域的Deep Web数据源发现,并以旅游领域Web页面为例,首先利用NekoHTML对网页进行规范化,然后通过启发式规则将表单去噪,再在大量观察了接口的特征及充分利用了中文特点设计了相应的启发式规则及利用DOM接口自动将html代码转换成拥有我们需要的数据源特征的DOM树,与本体知识树匹配,找到领域的Deep Web数据源查询接口,从中提取form表单。最后用实验进行验证,表明该方法对实现领域Deep Web数据源集成的半自动化、自动化有较强的现实意义。第三,阐述了Deep Web数据源查询接口的分类问题。根据Deep Web数据源小样本、高维特征以及中文语义特点,本文首先将Deep Web数据源查询接口形式化表达出来,并转化成向量模型;接着利用粒子群算法对其进行优化提取特征向量,并设计将接口的147维向量集合模型转化为15维向量集合模型,最后转化为二维向量模型;最后,在MATLAB上进行仿真实验,对Deep Web数据源查询接口分类的三种方法进行了对比,得出降维后和不降维数据源的分类不受明显影响,但降维能节约计算机的计算量,用svc分类比用knn分类效果好。总之,Deep Web查询接口集成技术为尚处于起步阶段,国内有了实验原型,但诸多关键技术细节实现尚需要深入探索,与具体应用阶段相距甚远。本文下一步的工作是研究发现隐蔽的查询接口,改进Deep Web查询接口分类的算法。