Deep Web中基于查询松弛的数据集成研究

来源 :2009中国计算机大会 | 被引量 : 0次 | 上传用户:ZY5158598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Deep web环境中,如何解决查询失败并保证查询执行结果的数据质量已经成为一个重要的研究问题。本文针对这一问题,提出了基于查询松弛的查询计划生成与数据集成方法.本文中首先提出了基于对象属性重要度的查询松弛算法,通过属性分组树产生查询松弛计划以解决失败查询造成的数据质量问题.其次,本丈构建了查询结果数据集成模型对查询松弛产生的数据进行集成。数据集成中主要引入了基于查询松弛二次查询的属性补全策略和Top-k排序思想,这能够有效地在过滤冗余数据同时提高集成结果中对象属性的完整性。最后,通过实验数据表明本文提出的方法对于保证多数据源查询结果的记录数量与数据质量具有较好效果。
其他文献
性能评价是一个虚拟现实手术模拟器走向实际应用需要研究的问题.本文以牙周科手术模拟器为研究对象,对性能评价问题进行了实验研究。研制了基于力反馈的牙周操作模拟系统,可模拟典型牙周病诊断和治疗,例如牙周袋探诊、牙石探查和去除等操作。基于GHOST SDK力觉开发包进行二次开发,实现了手术器械与牙齿,牙龈/牙石等多种组织的实时交互,给操作者提供了较逼真的力觉感受。为了综合评价该系统的性能,设计了定性与定量
在H.264/AVC中,视频信号首先通过预测编码(包括帧内预测和帧间预测)得到的残差信号,需要进行整数变换和量化之后才能进行编码.在很多时候,特别是低码率条件下,会有很高概率得到全零量化系数块。本文通过研究4×4整数变换自身特性,对整数变换和量化过程进行反演,并采用分而治之的改进策略,得到了一个更为宽松的判定全零系数块的充分条件.实验结果显示,相比现有算法,本方法可以在不降低视频编码质量的前提下,
核心路由表的快速增长对BGP路由的计算性能提出了更高的要求.现有BGP并行路由算法因迭代计算、内部通信开销大和负载不均衡等因素其并行性能差.本文通过分析真实ISP网络前缀的分布特征,提出了负载均衡的BGP并行路由计算模型逼过前缀在多个控制单元的合理划分,每个控制单元独立存储和计算一部分全局路由表,避免了路由迭代计算和路由信息同步产生的内部通信开销.多个控制单元并行计算和负载均衡提高了BGP路由计算
任务调度是计算机科学研究中的重要课题,实时任务调度的研究更是嵌入式系统研究的重点之一。目前在多核计算平台上的任务调度相关研究中较少关注实时任务的多帧特性,悲观的使用任务最坏情况下的执行时间进行可调度性判定。在研究多帧周期任务的基础上,给出了一个改进的统一多帧多处理器任务调度模型,证明了这种模型的可调度性优于周期任务模型,从处理器利用率边界和任务响应时间分析两个方面基于固定优先级抢占式调度算法进行了
在无线网状网(WMN)中引入认知无线电和多无线电多信道等先进的无线传输技术能够大大提高网络的容量。但是同时也对网络体系结构设计和高层网络协议的优化提出了新的挑战。本文以认知无线网状网带宽资源优化分配为研究背景,首次提出了最大最小公平的无线电分配和路由联舍跨层优化(MMFJRRO)问题,基于网络流模型,把无线电分配和路由作为一个整体进行建模,给出了MMFJRRO问题的集中式最优化求解算法。该算法由一
确定有限状态自动机(DFA)被广泛地应用到模式串匹配问题中.随着模式串规模的不断增加,DFA状态转移表空间也越来越大,大量内存访问开销导致算法性能剧烈下降,因此,研究在保证随机访问的前提下如何对大型状态转移表进行压缩是一个具有挑战性的问题.本文提出了一种可以融合待扫描数据特征和模式串自身特征的链式状态转移表结构,并给出了链式状态转移表的内存访问代价,理论证明:使用Huffman编码对访问序列进行重
该文采用多重分形分析方法,对系统资源参数时间序列的波动规律进行研究,提出一种定性和定量相结合的分析方法,预测资源消耗和软件衰退的趋势.首先借鉴分形理论对影响软件性能的系统资源参数的分形结构进行分析,发现参数的波动具有分形特性:且其多重分形谱特征能定性地分析在系统运行过程中随时间变化的情况。其次,提出了一种多维的H(o)lder指数计算算法,应用到资源耗费数据,并采用自回归移动平均模型(ARMA)对
对传统主题图进行扩展,实现了基于扩展主题图的多源异构知识融合.结合全信息理论与扩展主题图结构特点及语义信息,提出了面向多源知识融合的扩展主题图相似性算法ETMSC,该方法综合了语法相似性、语义相似性和语用相似性,不仅考虑了扩展主题图元素间组成结构上的相似性,还充分考虑了其涵义以及所处语境的相似性.实验结果表明,ETMSC算法比目前的单纯基于语法或语义的相似性算法,F值平均提高了9.2%~11.1%
数据流的变化往往表明产生数据流的时象特性可能发生了某种改变,具有需要进一步关注的领域含义,因此目前许多监控应用中需要对数据流的变化进行检测.同时,在很多应用中数据流的数据特征呈现出伪周期性,即数据特征在一定程度上会按照固定的时间间隔反复出现,但各个时间间隔内的数据出现规律又不会完全相同.在数据流上的现有变化检测算法并不适用于对出现密集程度较高的伪周期数据流周期间的变化进行检测本文对伪周期数据流变化
数据集成技术自二十世纪八十年代开始研究,旨在为访问多个数据源提供统一的访问接口和高效的查询处理能力。近年来,仍然有大量工作在数据集成查询处理领域展开,这些工作的主要研究目标是应对复杂的数据管理任务和查询处理环境.本文回顾和总结近年来数据集成查询处理技术中具有代表性的研究成果,对其进行分类和比较,分析它们的主要贡献和不足.此外,本文还探讨数据集成领域的未来研究方向。