论文部分内容阅读
访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。查询接口是Deep Web数据库的唯一访问入口,通过向Deep Web查询接口提交查询是获得其中信息的主要途径。因此对查询接口识别与抽取技术的研究在整个Deep Web数据集成系统中占有重要的地位。查询接口识别是从众多网页表单中识别出查询接口。动态网页技术的发展,特别是JavaScript的出现,对表单的表现形式和提交方式产生了很大影响。本文借助Rhino引擎,实现了JavaScript函数解析。并基于前人的研究成果,设计实现了一种基于最大熵模型的查询接口识别方法。实验表明,该查询接口识别方法的准确率高达95%。查询接口抽取的难点在于控件与表示其语义信息的提示文本的匹配。本文首先将查询接口按照结构的不同分成了四种类别,然后针对不同结构查询接口的特点,给出了属性匹配的方法,最后基于DOM实现了查询接口的属性抽取和匹配。在此方法的基础上,本文还给出了一种改进方法—基于索引路径的查询接口抽取方法。实验表明,本文提出的方法抽取查询接口的F_measure值达到94%以上。