Deep Web数据源发现与分类研究

被引量 : 10次 | 上传用户:kftgb1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web又称为看不见的网页,是指通用搜索引擎由于技术原因无法索引至的那部分信息,Deep Web包含的信息是Surface Web的400~500倍,相比于表层网其信息更有价值。这些信息以自主的、独立的形式分布在整个网络中,而且Deep Web数据源是动态的、不断变化的,并非所有的网页表单都是DeepWeb查询接口,这给Deep Web信息的获取带来了困难。使用者可以通过目录指南、专业搜索引擎、Deep Web数据库等方式来获取Deep Web信息。为了有效的提供这信息,必须对Deep Web进行数据集成。本文针对Deep Web数据集成中的数据源发现和接口分类这两个重点问题进行了较为深入的研究,主要的研究工作和成果如下:(1)对Deep Web进行了研究,凶手Deep Web的定义、数据特性、规模、存在类型、获取途径以及Deep Web数据集成中的关键问题。(2) Deep Web查询接口的判定。在网页表单特征提取的基础上加入了启发式判定规则。运用了分类器集成思想,采用Adaboost算法将多个朴素贝叶斯分类器进行累加形成一个强分类器,减弱朴素贝叶斯分类算法中属性独立性假设的要求,利用多个分类器之间的差异来改善分类器的整体性能。实验结果显示,在查全率和查准率上都达到了90%,取得了较好的判定效果。(3) Deep Web数据源分类。采用ID3算法和C4.5算法相结合的方式,较好的处理了归纳偏置问题和分裂子集样本数目接近样本总数引起的增益比率过大问题。实验结果显示,在多个领域的分类准确性都有所提高。本文解决方案比较适用于存在共有属性的领域,在这类领域的分类效果比较好。本文提出了基于特征与启发式规则相结合的Deep Web查询接口判定方法,采用Adaboost-Naive Bayes分类器对查询接口进行判定。在此基础上采用ID3和C4.5相结合的分类算法对Deep Web数据源分类。实验表明,在查全率和准确率上都得到了提高。但是,还有很多有意义的问题值得进一步研究,例如:中英文网页之间的差别;进一步扩展Adaboost-Naive Bayes分类器;充分利用网页表单以外的其他网页特征;通过返回结果判定网页表单类别;分类中融入遗传算法、人工神经网络、支持向量机等分类算法。
其他文献
采用文献资料、问卷调查、逻辑分析及访谈等研究方法,分析了当前大学生社会适应性存在的现实问题,对阳光体育运动培养大学生社会适应性的重要意义进行了深入的阐述,旨在为进
文章提出情志刺激致病四段式模式假说,假说内涵要点为:生活事件是引发情志刺激的始发因素;个体心理、生理特点是形成情志刺激的关键;体内激素和神经递质相关活性物质含量和功
分析医生处方行为的形成动因与激励动因的内在关联,进而构建医生处方行为的激励机制。首先,基于文献研究分析激励机制的理论基础以及当前医生激励机制研究的不足;其次,基于需
胆碱能抗炎通路是近年来发现的神经免疫调节通路,能够控制机体炎症的发生发展。与传统的体液抗炎通路相比,这条抗炎途径以迷走神经、乙酰胆碱及特异性乙酰胆碱受体为基础,在
自噬性细胞死亡,是一种不同于凋亡的不依赖于Caspase途径的程序性细胞死亡,是体内多余的蛋白质和亚细胞成分在溶酶体内降解的复杂催化过程,具有生理、病理双重作用。肿瘤细胞
本文从两个方面论述了素描,一、素描的发展历程,二、素描的教学研究。第一部分的内容是:从最早的素描,原始洞窟壁画开始,它可以上溯到原始社会,那时的素描以最简练的线条来表
莫霍利·纳吉是最早将构成主义带入包豪斯的人物之一。他的作品具有鲜明的几何抽象风格,他通过这些极具理性的几何形和富有现代感的线条来表达对艺术和工业的理解。在他的作
预售商品房转让,又称之为“期房转让”、“炒楼花”,是指预购人在商品房预售后,将其购买的还未竣工的商品房以买卖、互易等方式再转让给其他人的法律行为。预售商品房转让制
介绍了频率响应法和短路阻抗法测试变压器绕组变形的基本原理,比较了两种方法测试方法的灵敏性,对一台变压器绕组变形测试结果进行了分析。