论文部分内容阅读
网络的发展日新月异,很多普通的用户都可以通过网络来查找所有它们感兴趣的信息。关键字检索这种方式正是普通用户用来查找它们感兴趣信息的主要方式,因为关键字检索并不需要用户学习任何复杂的查询语言,也不需要了解底层数据的结构。随着不确定数据的出现,如何管理这些不确定数据已经越来越多的得到研究者的重视。本文采用一种概率XML数据模型——p document,该模型是表示不确定数据的一种方式。研究者可以通过在该模型上进行数据查询的方式来实现对不确定数据的管理。现有的关键字检索方法都是针对普通XML数据来进性研究的,为了实现概率XML数据的关键字检索,本文将概率XML数据处理方法以及SLCA关键字检索算法相结合,提出了基于SLCA的概率XML数据关键字检索算法和改进的基于SLCA的关键字检索算法。基于SLCA的概率XML数据关键字检索算法通过遍历概率XML数据,根据概率XML数据中概率分布节点来生成普通XML数据。在普通XML数据上执行关键字检索算法。当XML数据集很大时,处理XML数据将变成一个十分繁琐的问题。因此本文在该算法的基础上提出了改进的基于SLCA的概率XML数据关键字检索算法。算法通过阈值的设定和概率值的计算,将会减少所生成的XML数据量。由于减少了大量的检索数据,在进行关键字检索时会缩短检索时间,实现算法的优化。