Web数据库柔性查询关键技术研究

被引量 : 4次 | 上传用户:catticc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着World Wide Web的迅速膨胀,Web中出现了越来越多只能通过基于Web表单的查询接口访问的在线数据库,这些数据库称为Web数据库。近年来,随着Internet的普遍应用和Web数据库中所蕴含信息量的快速增长,访问Web数据库已成为人们获取信息的重要手段。现有的Web数据库查询处理模式通常假定用户明确自己的查询意图并且仅支持严格查询匹配,但随着Web数据库规模和复杂性的增加,要求大量普通用户了解Web数据库的结构和内容已不现实。在这种情况下,即使用户使用明确的查询条件,Web数据库仍有可能返回过少甚至空查询结果,此时大多数(特别是需要即时满足的)普通用户希望Web数据库系统能够自动放松初始查询条件(即查询松弛)提供近似匹配的查询结果。而查询松弛后,用户又可能会面临多查询结果问题,此时用户希望Web数据库系统能够对查询结果自动进行排序或分类以避免信息过载。此外,大量普通用户对于Web数据库的查询意图通常是模糊或不精确的,所给出的查询要求可能只是其查询意图的模糊描述,此时用户希望Web数据库系统能够支持其模糊查询要求的表达,通过直接使用模糊语言查询Web数据库。不难看出,用户对解决上述问题的期望体现了对于Web数据库系统提供柔性查询服务的需求,而当前的Web数据库查询处理模式无论是在查询形式还是在查询处理方面都还难以满足这样的需求。本文针对当前Web数据库查询中亟待解决的空查询结果问题、多查询结果问题和模糊查询问题进行了研究,从满足普通用户柔性查询需求和偏好的角度入手,按照查询松弛、松弛查询下的多查询结果排序与分类和模糊查询的研究顺序,提出了一套行之有效的Web数据库柔性查询解决方案并给出了具体的实现技术。本文的创新性研究成果主要有:(1)为解决Web数据库空查询结果问题,提出了一种基于语义相似度的自适应查询松弛方法。首先,基于查询条件和数据分布推测用户对查询指定属性的重视程度,据此提出了一种属性权重评估方法;然后,通过考察属性值的特征信息,分别提出了分类型属性值之间和数值型属性值之间的语义相似度评估方法;在此基础上,根据松弛阈值、属性权重和属性值之间的语义相似度,提出了一种自适应查询松弛重写算法,并给出了一种基于元组对初始查询满足程度的查询结果排序方法。实验结果表明,提出的属性权重和属性值之间的语义相似度评估方法性能稳定、评估结果合理,提出的查询松弛方法具有较高的查全率,能够较好地满足当前用户的需求和偏好。(2)为解决由查询松弛导致的Web数据库多查询结果问题,提出了一种基于上下文偏好的多查询结果排序方法。首先,通过结合定性和定量偏好的表示方法,提出了一种带偏好程度的上下文偏好模型,该模型能够同时体现偏好关系和偏好程度;然后,给出了带偏好程度的上下文偏好的获取和处理方法,基于带偏好程度的上下文偏好,提出了松弛查询下多查询结果排序方法。实验结果表明,提出的偏好模型具有较强的偏好表达能力,排序方法具有较高的排序质量和执行效率。(3)提出了一种与查询结果排序互补的Web数据库多查询结果分类方法。首先,基于向量空间模型,提出了一种评估不同查询之间语义相似度的方法,进而分别提出了查询历史中语义相似查询的聚合方法和基于查询聚合的数据库元组聚类方法;然后,基于元组聚类和改进的C4.5决策树分类算法,提出了一种查询结果分类树构建方法。实验结果表明,不同查询之间的语义相似度评估结果是合理的,提出的分类方法具有较好的分类效果和较低的搜索代价。(4)为解决Web数据库模糊查询问题,提出了基于知识的模糊查询转换与结果排序方法。首先,基于模糊集理论,在充分考虑了用户对每个模糊基本查询条件重视程度的前提下,提出了综合使用隶属函数、领域知识、权重函数和模糊集α-截集运算实现模糊查询转换的方法;然后,根据元组对模糊查询和用户偏好的满足程度,分别给出了两种模糊查询结果排序方法。实验结果表明,提出的模糊查询方法能够同时达到较高的查全率和准确率,并且具有较高的执行效率。
其他文献
县级精神病院发展瓶颈医师严重缺乏,招进难、留住难,体制缺乏生机.突破对策:消除歧视;专业技术职称晋升效仿乡镇卫生院;提高待遇,重点倾斜一线医务人员;临床进修学习;加强软硬
化学需氧量(COD)是我国污染排放总量控制指标之一,最常用的测定方法是国标法(重铬酸钾法和高锰酸钾法),虽然测定结果准确、重现性好,但是仍然存在诸多不足。文章总结了COD测
30万吨/年高密度聚乙烯装置旋液分离器D3001A/B在生产的过程中容易堵塞。从旋液分离器顶部密度增加、反应器的内部固体含量(Solids-in)增加及淤浆加热器的热负荷增加等现象可
阐述了LNG的特点以及我国LNG储库现状,通过分析LNG冷能特点及利用原理,对LNG冷能回收方法进行详细分析说明,并指出该方法的优缺点。指出了当前我国的LNG冷能回收应该因地置宜
安全生产管理措施作为现代企业文明生产的重要标志之一,在企业管理中的地位与作用日趋重要。从一定意义上说,安全生产管理措施的成败直接关系到企业的生存与发展。因此,我们必须
政府投资项目是我国全社会固定资产投资的重要组成部分,其管理模式和方法对投资效益和建设效果的影响极大。本文先简要回顾了我国政府投资项目管理的概念和发展,对中央、浙江
文章对检测水中粪大肠菌群的方法进行了探讨。通过采集50种地表水和污水厂水样,分别用酶底物法和多管发酵法进行比较,从检测结果发现,两种方法的数据无明显差异,相关性好。相
介绍HAZOP分析方法在聚丙烯装置的应用,根据分析结果,有效地识别聚丙烯装置运行过程中存在的风险,并提出了降低风险的措施和建议。
微藻是支持未来生物燃油可持续发展最有前景的原料,但目前微藻生物柴油发展的主要障碍是生产成本太高。在微藻生物燃油生产成本中微藻的规模化培养成本占有重要地位。工业化
随着市场竞争的日益激烈,供应链管理已经成为企业的核心竞争资源。供应商管理库存(Vendor Managed Inventory,VMI)产生于上世纪八十年代,现在已被越来越多的公司成功推行。作