Deep Web数据源发现和选择研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:misskiller
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息的迅速增长,Deep Web数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持Deep Web查询搜索引擎从而满足实际用户的广泛需求,成为信息领域研究的重点。由于Deep Web的自身特点,实现其数据资源集成在技术上存在很大难度。为了发现和集成这些Deep Web资源,本文首先分析了Deep Web国内外研究现状,提出了Deep Web数据集成系统框架,分析了其主要的四种机制:知识库构建机制、查询处理机制、查询转换机制和结果集成机制,并阐述了Deep Web集成的难点。其次,本文阐述了Deep Web爬虫框架,通过分析接口类型和表单处理机制,包括表单解析、表单特征提取、表单模式匹配和表单聚类和分类,结合数据源接口发现四层模型,提出了基于领域的表单爬虫框架DeepRunner,提出基于领域的Deep Web数据源发现算法DOER来获取领域数据源。本文从理论上阐述Deep Web的属性分布和问题描述,分析了Top-k查询技术和主流算法,结合Top-k算法的优点,提出了基于属性支配模式增长算法的Top-k数据源选择策略,并且结合属性间共现度特征,进一步改进算法,提高了算法执行的查准率和查全率,从而提高了用户查询服务的质量。最后,本文阐述Deep Web查询转换和查询结果集成机制。实验表明,本文的DeepRunner框架可以获取Deep Web领域数据源,验证了其可行性;通过大量的实验数据,本文验证了基于领域的数据源发现算法DOER的优越性,也证明了基于属性支配模式增长算法的Top-k数据源选择算法及其改进算法的有效性,尤其在大规模数据集成中,这两种算法效率显著高于传统的Top-k数据源选择策略。
其他文献
图像分割在是图像处理技术中的关键步骤,人们接触到的图像是由像素组成的复杂变化的系统,该系统所得的最优分割对于计算机来说是不可知的,很难用明确的数学模型得到最优解。
随着社会的不断发展,人脸检测和识别技术得到广泛的关注。人脸识别技术在生物识别中占有重要的地位,经过三十多年的发展,已经取得了长足的进步。目前大多人脸识别系统可以在
随着视频处理在嵌入式应用中的不断增长,嵌入式视频系统的复杂度不断提高,系统规模逐步扩大,视频产品的推出时间也在不停地缩短,这使得嵌入式视频系统的设计开发面临着系统日
随着网络带宽容量迅速增加,网络设施日益更新,入侵方式也层出不穷。蠕虫等网络入侵攻击不仅对个人计算机、服务器的正常运行造成破坏,甚至会对路由、交换等网络基础设备的正
网格将整个互联网整合成一台超级计算机,实现各种资源的全面共享,可求解资源消耗大、计算复杂度高、在传统技术下无法有效解决的问题。网格系统需要监控各组件的运行状态以及
苛刻环境通信系统蕴藏着巨大的潜在应用价值,抗电磁干扰机制与算法是众多应用的核心支撑技术。为了提高系统在恶劣环境中的通信能力,本研究拟通过冗余和低电压差分方法为抗电磁
位置服务作为移动互联网时代的基础服务,在人们的日常生活中扮演着越来越重要的角色,据统计将近80%的应用与位置服务有关。位置服务中移动用户需要与位置服务提供商共享其位
运用语义万维网(Semantic Web)需要对传统的网络资源进行一些具有一定语义的标注。目前建立用于标注的本体(Ontology)是比较困难的。为了降低技术难度可以用一些具有结构化信息的
随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部
为了确保网络时代的信息安全,国际上提出了基于公钥基础设施(PKI, Public Key Infrastructure)作为标准的信息安全体系结构,现己被普遍采用。在PKI中,最关键的实体是数字证书