论文部分内容阅读
Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够搜索到的。通常认为搜索引擎查不到的信息要占网络全部信息的90%。据Bright Planet公司技术白皮书的中描述,Deep Web资源容量约为Surface Web的500倍,而且包含着更多有价值的资源。超过一半的Deep Web内容都保存在专业领域的数据库中。海量的表面信息固然可以通过普通的搜索引擎查询到,可是还有相当大了的信息由于隐藏在深处无法被搜索引擎查到,而且Deep Web数据源同时又是不断变化的,绝大部分隐藏的信息必须通过动态请求产生网页信息,标准的搜索引擎是没有办法对它进行查找的。因为这些动态请求产生的网页信息必须要通过Deep Web查询接口来获取,使得Deep Web信息获取变的更加困难,为了有效的获取Deep Web信息,我们必须要对Deep Web进行数据自动识别和分类。本文通过对Deep Web数据源的自动识别和分类研究这两大重点问题展开深入研究。主要的研究内容包括:(1)对普通网页表单及Deep Web网页的表单特征进行分析,经过合并、添加、筛选得到的得到本文采用的表单特征提取方案,包含各控件值,控件数量,包含语义信息的词条等一系列特征值作为分类属性。(2) Deep Web数据集成的关键问题研究,查询接口的识别及分类判定。针对朴素贝叶斯方法的限制,使用粗糙集算法进行优化约简。该方法利用两次随机抽样建立基于朴素贝叶斯算法的分类器组,利用粗糙集算法的属性约简方法进行分类器组的约简处理,然后利用优化后的分类器组进行分类,对得到的分类结果进行加权平均,得到最终的分类结果。实验结果显示,在优化后的贝叶斯分类分类器组,对Deep Web查询接口及其分类的查准率及查全率上均有明显提高。(3) Deep Web数据源识别及分类性能对比。将数据挖掘中的几种分类方法,如:C4.5决策树、ID3等以及本文算法进行分析对比,在查全率和查准率上效果验证了此方法可行。本文所采取的方法是分析现有的相关研究,通过对Deep Web数据源的学习和分析,并在目前已有的研究成果的之上,通过改进的算法,加以实验数据来验证我们的算法的有效性。从实验的结果来看本文的方法还是比较满意的。实验中难免存在不足之处,在今后的研究中我们将进一步的对相关问题和算法进行修正。Deep Web的研究如今还有一段很长的路要走,存在的难题需要广大的研究者们逐个的去解决。