Hidden Web信息搜集系统关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：drifter

【摘要】

：

随着互联网技术的快速发展和网络应用的广泛普及，用户对网络信息的覆盖率和准确率都提出了更高的要求。传统搜索引擎主要针对表层网络数据进行处理，却忽略了大部分存储在站点数

【作者】

：

刘巍

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

HiddenWeb资源查询接口检测信息抽取页面特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展和网络应用的广泛普及，用户对网络信息的覆盖率和准确率都提出了更高的要求。传统搜索引擎主要针对表层网络数据进行处理，却忽略了大部分存储在站点数据库中，隐藏在查询接口后的HiddenWeb资源。这些资源具有面向领域和权威化的特点，有效地获取这些资源将对提高网络信息覆盖率和准确率具有非常重要的作用。　　本文按照访问HiddenWeb资源的基本流程，在对HiddenWeb站点页面特征进行分析的基础上，从查询接口检测，表单信息抽取和表单填充三个方面对HiddenWeb信息搜集系统的几个关键技术进行了研究。　　1.查询接口检测技术。查询接口是访问HiddenWeb数据库的唯一接口。本文提出了一种将表单分类器与启发式规则相结合的方法进行查询接口的检测。实验证明该方法可以较准确地从普通页面中检测出HiddenWeb资源的入口。　　2.表单信息抽取技术。本文对已知查询接口表单构建DOM树，利用DOM树结构分析，对查询表单中的信息进行抽取。这种方法考虑了表单的结构特征，在实际应用中取得了较好的抽取效果。　　3.表单填充技术。本文构建一个领域本体知识库确定具体表单填充内容。通过将查询表单文本控件的标签与知识库中的对象进行匹配，从知识库中检索出相关领域内容来填充表单，进而发送填写好的表单达到访问HiddenWeb数据库的目的。

其他文献

人脸识别中几种特征提取与选择的方法

信息技术的快速发展使生活变得便利有序，同时对系统安全提出了更高的要求以防范未经授权的侵入及权力的滥用。生物特征识别（Biometrics）利用人体与生俱来的生理特征或行为特征进

学位

人脸识别特征提取分块最大边缘法则Interest滤波

一种改进的深度卷积神经网络及其权值初始化方法研究

随着图像识别的广泛应用和深度学习的兴起,深度卷积神经网络在图像识别领域也获得广泛的应用。基于深度卷积神经网络的图像识别方法是当前识别正确率较高的方法,是一种基于特

学位

深度卷积神经网络图像识别权值初始化视觉显著性非监督预训练Inception模块

最佳扩域上椭圆曲线密码体制的研究及其嵌入式系统实现

随着人们对公钥密码的深入研究和计算机计算速度的提高，目前广泛使用的公钥密码系统RSA的安全性受到了很大的威胁，为了提高RSA的安全性，RSA的密钥长度不断增加。但是对椭圆曲线

学位

最佳扩域椭圆曲线密码系统嵌入式系统片上系统

EJB分布式组件技术在油田数据发布系统中的应用研究

本文首先介绍了课题的学术背景和业务背景,然后通过比较当前主流的三种分布式组件技术说明了本课题选择EJB技术的原因,并对EJB技术做了深入的探讨,在此基础上设计和实现了基

学位

EJB分布式组件J2EEMVC性能优化

P2P环境下基于模式匹配的复杂查询处理的研究

Peer-to-Peer(P2P)技术为资源共享提供了分布式体系结构,随着P2P系统从文件共享向数据共享的转化,如何将数据管理系统能力和P2P结合起来支持结构化、语义丰富的数据成为研究

学位

P2P数据库系统模式匹配语义覆盖网聚集查询Join查询

应用层负载检测算法研究及异常检测系统的设计与实现

随着网络应用的快速发展，社会信息化程度的不断提高，网络入侵者利用恶意代码对开放的服务端口发起攻击的次数越来越多，且手段隐蔽，破坏性巨大。传统的防火墙受其功能的局限性，难以

学位

入侵检测异常检测缓冲区溢出层负载检测算法

基于PKI与数字水印的工程图档版权保护研究与实现

互联网的迅速发展,为计算机工程图档的广泛应用提供了极大的方便,同时也给人们带来了工程图档的版权保护问题。数字水印技术为数字化产品的版权保护提供了一种有效方法。当前

学位

版权保护数字水印公钥基础设施二维矢量图形二值图像小波变换零水印不变矩

基于无线传感器网络的联机分析处理技术的研究

随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,具有感知能力、计算能力和通信能力的微型传感器开始在世界范围内出现。由这些微型传感器构成的无线传感器

学位

无线传感器网络联机分析时空索引结构数据压缩

远程网络可视指挥系统中SIP消息传输负载均衡策略的研究与实现

随着互联网技术、现代通信技术和多媒体技术的高速发展，军队指挥系统的数字化、智能化、网络化、可视化已成为必然的发展趋势。研究开发远程网络可视指挥系统，对于加强军队指挥

学位

负载均衡服务器可视指挥系统远程网络数据流量

改进的量子遗传算法在车间调度中的应用研究

生产调度作为一个关键模块,是整个先进生产制造系统实现管理技术、运筹技术、优化技术、自动化与计算机技术发展的核心。有效的调度方法和优化技术的研究与应用,是实现先进制

学位

遗传算法作业车间调度量子遗传算法精英库干扰库

Hidden Web信息搜集系统关键技术研究

其他学术论文