面向Web规模RDF图数据的智能查询及检索机制

来源 :天津大学 | 被引量 : 0次 | 上传用户:nnhdceh986532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为语义网的数据基础,RDF图数据在链接数据运动推动下,数据规模已达百亿条三元组。RDF是一种非经典的图数据模型,其特性在于当表达本体层语义时,RDF图的边又可作为节点出现,即边与节点的交集非空,对于这样一种Web规模的特殊图数据,智能和高效的查询和检索机制非常重要。围绕这一课题,本文取得了如下成果:(1)证明了属性路径存在式语义与当前SPARQL1.1语义在去除重复值的情况下是等价的,并将基于存在式语义的属性路径表达式转化为扩展后的嵌套正则表达式,证明了在考虑RDFS语义推理的情况下属性路径转化前后的语义等价性,根据嵌套正则表达式相乘自动机算法和属性路径到嵌套正则表达式的等价转换规则实现了基于存在式语义的属性路径查询引擎。实验结果不仅显示了此查询引擎在效率和推理方面的良好特性,而且进一步验证了属性路径存在式语义与当前语义之间的等价关系。(2)利用分布式技术对RDF图数据建立嵌套正则表达式导航轴索引,并统计其导航轴频率。基于事实统计提出了稀疏轴的概念,并给出了基于稀疏轴的新的嵌套正则表达式查询算法。对于包含稀疏轴的嵌套正则表达式查询,此算法能够将其查询的时间复杂度从多项式时间降到接近线性。在DrugBank和BioGRID真实数据集上的实验结果表明,此方法在保证正确性的前提下能够显著提高嵌套正则表达式的查询效率。(3)通过引入不确定性理论,借助主关键字加辅关键字的查询模式和ORDPATH编码技术,提出了本体隶属度的概念,依据通用人工智能中的证据理论,给出了本体隶属度值的计算公式,并利用此值扩展了经典的BM25F排序算法,得到了MultikeyRank排序算法。在分布式大规模RDF数据服务器“Jingwei”上实现了此排序算法,实验结果表明,此排序算法在MAP、P@5、P@10和P@15四项测评指标上均比BM25F算法有一定幅度的提升。本文所实现的基于嵌套正则表达式的属性路径查询方式,既保持了属性路径表达方式的简洁性,又实现了面向目标的高效推理,避免了求RDF图闭包,能够适应Web规模下的路径导航查询和推理要求。所开发的基于MultikeyRank模型的语义关键字检索系统能够根据用户输入的主、辅关键字智能地识别用户的查询意图,返回带有用户偏好的查询结果。以上两种智能化的查询机制不仅提高了用户的查询体验,而且也显示了语义网独特的魅力。
其他文献
“羊肠毒血症”是绵羊及山羊的一种急性、高度致死性传染病,死后肾脏软如泥状,又称“软肾病”。本病常发生于春末夏初季节,膘情较好的幼龄羊多发。多因吃了大量幼嫩青草或青菜等
根据1990年在澳大利亚悉尼召开的第九届世界胃肠病学大会所制定的胃炎新分类及1996年制定的新悉尼系统,胃炎分为:(1)急性胃炎;(2)慢性胃炎;(3)特殊类型胃炎.现将我院10年中慢
目的:观察肝脏卵圆细胞(HOC)在二甲基亚硝胺(DMN)致大鼠肝硬化过程中表达的动态变化,探讨其病理生理意义.方法:应用DMN造成大鼠肝硬化动态模型,进行常规组织学观察,透射电镜
胰腺星状细胞是一种与肝星状细胞结构和功能相似的细胞,在慢性胰腺炎胰腺纤维化中起重要作用.本文就胰腺星状细胞的特征,与细胞因子、胰腺纤维化之间的内在联系以及对微血管