Deep Web查询接口识别与抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:www123123123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。查询接口是Deep Web数据库的唯一访问入口,通过向Deep Web查询接口提交查询是获得其中信息的主要途径。因此对查询接口识别与抽取技术的研究在整个Deep Web数据集成系统中占有重要的地位。查询接口识别是从众多网页表单中识别出查询接口。动态网页技术的发展,特别是JavaScript的出现,对表单的表现形式和提交方式产生了很大影响。本文借助Rhino引擎,实现了JavaScript函数解析。并基于前人的研究成果,设计实现了一种基于最大熵模型的查询接口识别方法。实验表明,该查询接口识别方法的准确率高达95%。查询接口抽取的难点在于控件与表示其语义信息的提示文本的匹配。本文首先将查询接口按照结构的不同分成了四种类别,然后针对不同结构查询接口的特点,给出了属性匹配的方法,最后基于DOM实现了查询接口的属性抽取和匹配。在此方法的基础上,本文还给出了一种改进方法—基于索引路径的查询接口抽取方法。实验表明,本文提出的方法抽取查询接口的F_measure值达到94%以上。
其他文献
随着网络技术的发展,分布式系统得到了广泛的应用,然而由于分布式系统运行的“不确定”性、交互调试方法对分布式程序造成的“探针效应”等诸多问题,致使传统的串行调试方法无法
随着对信息安全性要求的提高,身份认证系统已渗透到当前信息社会的每一个角落。文本口令机制是目前使用最为广泛的一种身份认证方式,然而,文本口令存在很多固有缺陷使之很难同时
肩窥攻击是一种常见的通过直接观察或记录认证过程而获取口令的方式。这种攻击方式对于获取高度可视化的图形口令更为有效。然而,现有的大多数图形口令机制都不能有效抵御肩窥
喷泉码是网络通信领域中的一项重要突破,最初是为删除信道(Binary ErasureChannel,BEC)设计的,其最大的特点就是码率无关性,即编码器可以生成的编码符号的个数是无限且灵活的,译码
在图像和视频的内容分析和对象识别领域,以SIFT特征为代表的局部特征提取方法在最近几年得到了成熟和广泛的应用。从图像或视频关键帧中提取局部特征组成特征集合,通过匹配局部
空腹血糖(Fasting Blood Glucose,FBG)是衡量人体健康的一个重要指标。对空腹血糖的分析预测对发现和治疗疾病有重要意义,尤其是对糖尿病等相关疾病。体检数据是一种信息丰富
Ad hoc网络作为一种新型的无线自组织网络与传统网络相比具有自由度高,变化迅速等特点。但是由于节点的资源受限和安全机制的欠缺,使得Ad hoc网络中节点的性能与信任关系尤为重
高维数据查询技术是多媒体数据库中的一项重要应用。传统的查询技术经常会面临“维数灾难”问题。本文首先根据高维空间的“维数灾难”问题,提出了使用一维映射的方法,并在一
低密度校验码(Low-Density Parity-Check codes, LDPC codes)由于其低译码复杂度和逼近香农限的良好性能,已成为当今信道编码领域的研究热点之一。由于低密度校验码具有诸多优
随着多媒体技术、计算机技术、网络技术的迅速发展和广泛应用,涉及对视频音频的处理越发重要。根据应用领域和实现功能的不同,开发一个通用的视频音频处理平台,并在该平台上进行