Deep web数据源的自动识别与分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：loveF

【摘要】

：

Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够

【作者】

：

林宽

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2013年期

【关键词】

：

Deep Web 数据源自动识别数据源分类粗糙集贝叶斯数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够搜索到的。通常认为搜索引擎查不到的信息要占网络全部信息的90%。据Bright Planet公司技术白皮书的中描述,Deep Web资源容量约为Surface Web的500倍,而且包含着更多有价值的资源。超过一半的Deep Web内容都保存在专业领域的数据库中。海量的表面信息固然可以通过普通的搜索引擎查询到,可是还有相当大了的信息由于隐藏在深处无法被搜索引擎查到,而且Deep Web数据源同时又是不断变化的,绝大部分隐藏的信息必须通过动态请求产生网页信息,标准的搜索引擎是没有办法对它进行查找的。因为这些动态请求产生的网页信息必须要通过Deep Web查询接口来获取,使得Deep Web信息获取变的更加困难,为了有效的获取Deep Web信息,我们必须要对Deep Web进行数据自动识别和分类。本文通过对Deep Web数据源的自动识别和分类研究这两大重点问题展开深入研究。主要的研究内容包括：(1)对普通网页表单及Deep Web网页的表单特征进行分析,经过合并、添加、筛选得到的得到本文采用的表单特征提取方案,包含各控件值,控件数量,包含语义信息的词条等一系列特征值作为分类属性。(2) Deep Web数据集成的关键问题研究,查询接口的识别及分类判定。针对朴素贝叶斯方法的限制,使用粗糙集算法进行优化约简。该方法利用两次随机抽样建立基于朴素贝叶斯算法的分类器组,利用粗糙集算法的属性约简方法进行分类器组的约简处理,然后利用优化后的分类器组进行分类,对得到的分类结果进行加权平均,得到最终的分类结果。实验结果显示,在优化后的贝叶斯分类分类器组,对Deep Web查询接口及其分类的查准率及查全率上均有明显提高。(3) Deep Web数据源识别及分类性能对比。将数据挖掘中的几种分类方法,如：C4.5决策树、ID3等以及本文算法进行分析对比,在查全率和查准率上效果验证了此方法可行。本文所采取的方法是分析现有的相关研究,通过对Deep Web数据源的学习和分析,并在目前已有的研究成果的之上,通过改进的算法,加以实验数据来验证我们的算法的有效性。从实验的结果来看本文的方法还是比较满意的。实验中难免存在不足之处,在今后的研究中我们将进一步的对相关问题和算法进行修正。Deep Web的研究如今还有一段很长的路要走,存在的难题需要广大的研究者们逐个的去解决。

其他文献

声学参量阵预处理算法研究及实现

声学参量阵是指通过运用振幅调制技术在超声载波上加载音频信号，然后再用换能器将其发射到空气中，由于原始音频信号在传播过程中受到空气非线性作用不停的自解调，加之载体为超声

学位

声学参量阵预处理算法谐波失真多速率信号处理FPGA

基于ASP.NET霍州煤电投资计划管理系统设计与实现

随着煤炭行业信息化的迅速发展，煤炭行业来自各方面的竞争也是越演愈烈。为了达到以较低成本增强管理水平和市场竞争力的最大化程度，企业大力推进自动化无纸办公建设将是一种必

学位

专项资金投资.NET数据访问MVC

云计算中基于XEN的虚拟机动态迁移的研究

云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常书籍通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算的服务模式分为三种：软件即服务,平台即服

学位

云计算虚拟化虚拟机动态迁移迁移框架优化算法

Privacy Preserved Data Retrieval over Encrypted Data

Cloud Computing is growing up technology in current era,we can say it is being used widely in our daily life and it has become essential part of the world.Cloud

学位

第一类B-样条权函数神经网络的算法复杂度研究及应用

算法的复杂度是衡量一个算法好坏的标准,所以对算法复杂度的理论分析和研究对该算法的推广和应用有着极其重要的意义。评价一个算法优劣的标准就是该算法在运行中所消耗的时

学位

神经网络权函数B-样条算法复杂度图像压缩

面向环境感知的自适应中间件技术的研究

随着计算机在工业领域的实用性普及传感器的迅猛发展,人们可以利用各种移动计算设备,包括智能手机、便携式计算机、智能传感器等方便快捷的获取周围甚至范围更加广泛的信息和

学位

ASMM环境感知中间件自适应权函数多属性

基于外光刺激的脑电压变化研究

大脑是支配人的意识、思维、情感、运动和接受各种感觉的器官,其生理功能是通过生物电的活动来实现的。脑电压是大脑神经细胞电活动的重要表征。脑电图EEG(Electroencephalog

学位

脑电压EEG技术等效电流偶极子外光刺激

基于GPU的自然场景泻染优化技术研究

三维自然场景的渲染是虚拟现实、游戏影视娱乐、地理信息系统等共同的研究舞台，具有广泛的应用前景。而复杂的自然场景中，不仅包括大规模的地形，还包括各种数量庞大的植被等，再加

学位

计算机仿真场景渲染虚拟技术程序设计

基于Petri网的Web服务组合执行引擎研究

随着服务计算理论与技术的发展，单个Web服务往往因为服务颗粒度的限制而不能很好地满足用户复杂的业务需求，因此这势必会要求Web服务组合及相关技术的出现。而Web服务的真正潜

学位

Petri网Web服务服务组合服务规划服务执行引擎

基于云计算的海量高铁噪声数据并行处理方法研究

随着高速铁路的飞速发展,高速铁路的安全与舒适成为当前研究的一个热点问题。安装在列车上的传感器采集的噪声数据反映了列车的运行状况,并与列车的安全息息相关。然而在噪声

学位

并行滤波并行预处理MapReduce高速铁路噪声

Deep web数据源的自动识别与分类研究

其他学术论文