Hidden Web信息搜集系统关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:drifter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和网络应用的广泛普及,用户对网络信息的覆盖率和准确率都提出了更高的要求。传统搜索引擎主要针对表层网络数据进行处理,却忽略了大部分存储在站点数据库中,隐藏在查询接口后的HiddenWeb资源。这些资源具有面向领域和权威化的特点,有效地获取这些资源将对提高网络信息覆盖率和准确率具有非常重要的作用。  本文按照访问HiddenWeb资源的基本流程,在对HiddenWeb站点页面特征进行分析的基础上,从查询接口检测,表单信息抽取和表单填充三个方面对HiddenWeb信息搜集系统的几个关键技术进行了研究。  1.查询接口检测技术。查询接口是访问HiddenWeb数据库的唯一接口。本文提出了一种将表单分类器与启发式规则相结合的方法进行查询接口的检测。实验证明该方法可以较准确地从普通页面中检测出HiddenWeb资源的入口。  2.表单信息抽取技术。本文对已知查询接口表单构建DOM树,利用DOM树结构分析,对查询表单中的信息进行抽取。这种方法考虑了表单的结构特征,在实际应用中取得了较好的抽取效果。  3.表单填充技术。本文构建一个领域本体知识库确定具体表单填充内容。通过将查询表单文本控件的标签与知识库中的对象进行匹配,从知识库中检索出相关领域内容来填充表单,进而发送填写好的表单达到访问HiddenWeb数据库的目的。
其他文献
信息技术的快速发展使生活变得便利有序,同时对系统安全提出了更高的要求以防范未经授权的侵入及权力的滥用。生物特征识别(Biometrics)利用人体与生俱来的生理特征或行为特征进
随着图像识别的广泛应用和深度学习的兴起,深度卷积神经网络在图像识别领域也获得广泛的应用。基于深度卷积神经网络的图像识别方法是当前识别正确率较高的方法,是一种基于特
随着人们对公钥密码的深入研究和计算机计算速度的提高,目前广泛使用的公钥密码系统RSA的安全性受到了很大的威胁,为了提高RSA的安全性,RSA的密钥长度不断增加。但是对椭圆曲线
本文首先介绍了课题的学术背景和业务背景,然后通过比较当前主流的三种分布式组件技术说明了本课题选择EJB技术的原因,并对EJB技术做了深入的探讨,在此基础上设计和实现了基
Peer-to-Peer(P2P)技术为资源共享提供了分布式体系结构,随着P2P系统从文件共享向数据共享的转化,如何将数据管理系统能力和P2P结合起来支持结构化、语义丰富的数据成为研究
随着网络应用的快速发展,社会信息化程度的不断提高,网络入侵者利用恶意代码对开放的服务端口发起攻击的次数越来越多,且手段隐蔽,破坏性巨大。传统的防火墙受其功能的局限性,难以
互联网的迅速发展,为计算机工程图档的广泛应用提供了极大的方便,同时也给人们带来了工程图档的版权保护问题。数字水印技术为数字化产品的版权保护提供了一种有效方法。当前
随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,具有感知能力、计算能力和通信能力的微型传感器开始在世界范围内出现。由这些微型传感器构成的无线传感器
随着互联网技术、现代通信技术和多媒体技术的高速发展,军队指挥系统的数字化、智能化、网络化、可视化已成为必然的发展趋势。研究开发远程网络可视指挥系统,对于加强军队指挥
生产调度作为一个关键模块,是整个先进生产制造系统实现管理技术、运筹技术、优化技术、自动化与计算机技术发展的核心。有效的调度方法和优化技术的研究与应用,是实现先进制