基于领域特征的两阶段查询接口抽取技术的研究实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:iris_1204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些“Deep Web”数据与基于静态网页的“Surface Web”相比,可以提供大量动态生成的网页。如何大规模集成这些数据受到越来越多研究者的关注。作为访问Deep Web后台数据库的门户,查询接口以form形式自主性创建,属性模式结构不规范,语义难以理解,查询接口抽取结果两极分化严重,因此对其模式信息的抽取是Deep Web数据集成首要面临的挑战。本文针对这一问题展开研究。   根据同一领域内查询接口的相似性,本文提出基于领域特征的两阶段查询接口抽取算法。所提出的算法基于领域特征,将整个查询接口抽取的过程分为两个阶段:第一阶段对于那些符合领域特征的抽取准确率比较高的标签和元素进行抽取,第二阶段主要依据第一阶段查询接口抽取结果所反映出来的方向性来指导查询接口的自动抽取。同时,基于该算法构建了一个查询接口抽取系统,该系统由两个模块组成,即查询接口分类模块和查询接口抽取模块。查询接口分类模块可以自动地判断查询接口所属领域,并对其进行分类;查询接口抽取模块依据本文所提出的算法对分类后的查询接口进行抽取。该系统能够高效准确地抽取查询接口,其中的查询接口分类模块突破了查询接口领域的限制,验证了所提出算法的实用性和通用性。   在实际数据集和合成数据集上进来了大量实验,实验结果表明了所提出算法能够较好地避免查询接口抽取错误扩散现象,有效地解决了查询接口抽取方法中出现的抽取结果两极分化的问题,从而达到较高的查全率和查准率。
其他文献
数据立方体是数据仓库和联机分析处理的核心概念。为了加速响应联机分析处理系统中的复杂多维查询,通常需要预先计算并保存数据立方体,然而数据立方体的巨大尺寸却给其计算和
公钥基础设施(Public Key Infrastructure,PKI)理论解决了信息安全领域的信息加密、密钥交换、数字签名和匿名双向认证等诸多问题,目前已在商业上得到了广泛的应用。然而,PKI
空间信息可视化技术的发展,为地质学各个领域的研究提供了一个新的方法和研究平台,为解决各种地质问题开辟了一个新的研究方向。虚拟现实是21世纪计算机信息科学研究的热点之一
全局照明计算是一种重要的基于物理光学原理的计算机图像合成方法.在光滑的平面上,它也是特别重要的,因为它以光滑材料特征的正确感知为条件.这篇论文主要集中于在光滑平面上
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网格虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格不仅提供利用强大计算机解决巨大挑
随着嵌入式的应用领域不断扩展,对嵌入式系统的要求越来越高。有的领域需要具有强大的浮点运算能力,有的领域有低功耗的要求,还有的领域需要提供多种硬件接口或多种联网方式。为
随着社会经济的发展和科学技术的进步,特别是城市人口的急剧增加和城市化进程的飞速发展,高层建筑和大空间场所越来越多,火灾的防范和发现变得越来越紧迫。传统型火灾探测技术在
直流电机调速系统因精度高、调速范围广、执行机构控制简单等优点在对调速性能要求较高的场合得到了广泛应用。目前,随着新型大功率电力电子器件IGBT技术的发展和PWM调制调速
塘沽地热试验研究中心在该系统上马之前对于地热水使用的管理方式,信息来源一般依据管理人员入户查询并上报进行管理。人工进行管理,数据的准确性得不到保证。随着企事自身实
随着计算机技术和医疗信息化的不断发展,健康检查系统得到了广泛应用,目前大多数健康检查系统都没有专门的报告报表处理工具,而作为检查结果的最终展示,健康检查报告和报表的地位又十分重要。健康检查报告报表生成系统能够在短时间内完成多种查询、统计分析以及各种报告报表的自动生成和打印。因此,能够提高工作效率、节省人力资源、方便资料的存储和管理,使信息和结论更具科学性。液基薄层细胞学检测技术(Thin-Cyto