Deep Web数据源质量估计模型及应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yxhetao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep Web。Deep Web信息的获取至今仍然是一个新兴的研究领域,也受到越来越多研究人员的重视。为了方便用户获取某领域的Deep Web信息,对Deep Web进行大规模信息集成的研究就应运而生了,该集成框架包括数据源发现、数据源分类、数据源选择、查询结果合并等模块的研究。本文在上述集成框架下提出了一个Deep Web数据源质量估计模型,基于该模型对数据源选择进行了应用研究,并提出了相关的选择算法。本文的主要研究内容包括:(1)介绍了Deep Web信息集成系统框架,对中国Deep Web资源的结构和分布做了调查研究。(2)分析了Deep Web三个方面的特性,并分别从三方面提取了影响数据源质量的属性。(3)分别采用了机器学习方法和模糊综合评价方法,对影响数据源质量的特征建立了质量估计模型。(4)应用上述质量估计模型,结合查询相关性及查询准确性对Deep Web数据源的选择做了应用研究。最后对文中提出的方法和技术进行了实验设计,通过对数据源选择实验结果的分析验证了提取特征的合理性和有效性,并比较了采用机器学习方法和模糊综合评价方法建立质量估计模型的优缺点。
其他文献
稀疏移动自组网的部分概念来源于早期的延迟容忍网络DTN(delay tolerant network)研究。随着移动自组网应用领域的扩展,很多应用领域都无法建立全连通网络,导致传统的移动自
数字版权管理问题是当前网络多媒体应用中非常突出的问题,目前用于解决该问题的技术很多,其中身份认证作为数字版权管理系统的首要环节是至关重要的,它通过认证在数字作品的
网络管理是“未来网络结构”的关键技术之一,它与高速路由交换、虚拟网络并称为网络发展的三大支撑技术。网络管理对于网络高效运行的重要性,使其成为当今信息网络研究的重要
因为机器视觉技术可以使工厂制造业更加高效化和低成本化,因此机器视觉技术在工业检测中发挥了越来越重要的作用。样本页自动粘贴机是工厂自主研制的一种提高样本册生产效率
移动自组网(Mobile Ad-hoc Networks,MANETs)是由一组带有无线收发装置的移动节点所组成的一个临时多跳性自治系统。随着多媒体应用日益普及,在MANETs中提供服务质量保证(Qua
随着网络技术的不断发展及其应用领域的不断扩大,在简化企业信息交流途径,增加信息交换速度和增强企业合作与联系动态性的同时,却面临着来自互联网的挑战。这是因为Internet
如何借助计算机技术快速准确判断附件证明材料是否重复使用是国家科学技术奖励评审迫切需要解决的问题。论文研究基于内容的证书图像检索技术,以解决从海量附件证明材料中的
调控元件是指基因周围能够与特异性转录因子结合而影响转录水平的DNA功能序列。作为一种重要的转录调控元件,转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识
隐写分析是信息隐藏检测的重要分支,分为针对性隐写分析和广义隐写分析。针对性隐写分析检测率高,但考虑到隐写术的多样性,它的实际应用受到限制。广义隐写分析适用性强,可以
近些年来,随着经济的发展,机动车的数量在飞速增长,除了为生活带来了交通上的便捷,道路交通事故的发生频率也不断上升。据研究表明,交通事故的产生除去不可抗力的客观因素以