论文部分内容阅读
随着互联网技术的快速发展和网络应用的广泛普及,用户对网络信息的覆盖率和准确率都提出了更高的要求。传统搜索引擎主要针对表层网络数据进行处理,却忽略了大部分存储在站点数据库中,隐藏在查询接口后的HiddenWeb资源。这些资源具有面向领域和权威化的特点,有效地获取这些资源将对提高网络信息覆盖率和准确率具有非常重要的作用。 本文按照访问HiddenWeb资源的基本流程,在对HiddenWeb站点页面特征进行分析的基础上,从查询接口检测,表单信息抽取和表单填充三个方面对HiddenWeb信息搜集系统的几个关键技术进行了研究。 1.查询接口检测技术。查询接口是访问HiddenWeb数据库的唯一接口。本文提出了一种将表单分类器与启发式规则相结合的方法进行查询接口的检测。实验证明该方法可以较准确地从普通页面中检测出HiddenWeb资源的入口。 2.表单信息抽取技术。本文对已知查询接口表单构建DOM树,利用DOM树结构分析,对查询表单中的信息进行抽取。这种方法考虑了表单的结构特征,在实际应用中取得了较好的抽取效果。 3.表单填充技术。本文构建一个领域本体知识库确定具体表单填充内容。通过将查询表单文本控件的标签与知识库中的对象进行匹配,从知识库中检索出相关领域内容来填充表单,进而发送填写好的表单达到访问HiddenWeb数据库的目的。