Deep web数据源的自动识别与分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:loveF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够搜索到的。通常认为搜索引擎查不到的信息要占网络全部信息的90%。据Bright Planet公司技术白皮书的中描述,Deep Web资源容量约为Surface Web的500倍,而且包含着更多有价值的资源。超过一半的Deep Web内容都保存在专业领域的数据库中。海量的表面信息固然可以通过普通的搜索引擎查询到,可是还有相当大了的信息由于隐藏在深处无法被搜索引擎查到,而且Deep Web数据源同时又是不断变化的,绝大部分隐藏的信息必须通过动态请求产生网页信息,标准的搜索引擎是没有办法对它进行查找的。因为这些动态请求产生的网页信息必须要通过Deep Web查询接口来获取,使得Deep Web信息获取变的更加困难,为了有效的获取Deep Web信息,我们必须要对Deep Web进行数据自动识别和分类。本文通过对Deep Web数据源的自动识别和分类研究这两大重点问题展开深入研究。主要的研究内容包括:(1)对普通网页表单及Deep Web网页的表单特征进行分析,经过合并、添加、筛选得到的得到本文采用的表单特征提取方案,包含各控件值,控件数量,包含语义信息的词条等一系列特征值作为分类属性。(2) Deep Web数据集成的关键问题研究,查询接口的识别及分类判定。针对朴素贝叶斯方法的限制,使用粗糙集算法进行优化约简。该方法利用两次随机抽样建立基于朴素贝叶斯算法的分类器组,利用粗糙集算法的属性约简方法进行分类器组的约简处理,然后利用优化后的分类器组进行分类,对得到的分类结果进行加权平均,得到最终的分类结果。实验结果显示,在优化后的贝叶斯分类分类器组,对Deep Web查询接口及其分类的查准率及查全率上均有明显提高。(3) Deep Web数据源识别及分类性能对比。将数据挖掘中的几种分类方法,如:C4.5决策树、ID3等以及本文算法进行分析对比,在查全率和查准率上效果验证了此方法可行。本文所采取的方法是分析现有的相关研究,通过对Deep Web数据源的学习和分析,并在目前已有的研究成果的之上,通过改进的算法,加以实验数据来验证我们的算法的有效性。从实验的结果来看本文的方法还是比较满意的。实验中难免存在不足之处,在今后的研究中我们将进一步的对相关问题和算法进行修正。Deep Web的研究如今还有一段很长的路要走,存在的难题需要广大的研究者们逐个的去解决。
其他文献
声学参量阵是指通过运用振幅调制技术在超声载波上加载音频信号,然后再用换能器将其发射到空气中,由于原始音频信号在传播过程中受到空气非线性作用不停的自解调,加之载体为超声
随着煤炭行业信息化的迅速发展,煤炭行业来自各方面的竞争也是越演愈烈。为了达到以较低成本增强管理水平和市场竞争力的最大化程度,企业大力推进自动化无纸办公建设将是一种必
云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常书籍通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算的服务模式分为三种:软件即服务,平台即服
Cloud Computing is growing up technology in current era,we can say it is being used widely in our daily life and it has become essential part of the world.Cloud
学位
算法的复杂度是衡量一个算法好坏的标准,所以对算法复杂度的理论分析和研究对该算法的推广和应用有着极其重要的意义。评价一个算法优劣的标准就是该算法在运行中所消耗的时
随着计算机在工业领域的实用性普及传感器的迅猛发展,人们可以利用各种移动计算设备,包括智能手机、便携式计算机、智能传感器等方便快捷的获取周围甚至范围更加广泛的信息和
大脑是支配人的意识、思维、情感、运动和接受各种感觉的器官,其生理功能是通过生物电的活动来实现的。脑电压是大脑神经细胞电活动的重要表征。脑电图EEG(Electroencephalog
三维自然场景的渲染是虚拟现实、游戏影视娱乐、地理信息系统等共同的研究舞台,具有广泛的应用前景。而复杂的自然场景中,不仅包括大规模的地形,还包括各种数量庞大的植被等,再加
随着服务计算理论与技术的发展,单个Web服务往往因为服务颗粒度的限制而不能很好地满足用户复杂的业务需求,因此这势必会要求Web服务组合及相关技术的出现。而Web服务的真正潜
随着高速铁路的飞速发展,高速铁路的安全与舒适成为当前研究的一个热点问题。安装在列车上的传感器采集的噪声数据反映了列车的运行状况,并与列车的安全息息相关。然而在噪声