论文部分内容阅读
XML关键字检索近年来成为XML研究领域中的一个热点,它将XML处理技术和信息检索技术结合起来,为用户提供更友好的检索方式。但是,当前XML,关键字检索主要关注的是如何在单个或者少数个文档中找出匹配的结果。随着Web数据的爆炸式增长,针对单个文档或者单个领域的关键字检索明显已经不能满足用户的查询需求。如何在多领域、海量异构XML数据上进行高效准确的关键字查询成为一个重要问题。 传统的数据集成技术为异构多数据源问题的提供了一个可行的解决方法。但是数据集成需要使用一个中间模式将源数据集映射为一个统一的数据文档,改变了原始数据的结构和特征,并不适合关键字检索的特点。针对多领域海量数据的特点,本文提出了一种在多领域XML数据集上进行高效关键字检索的方法,首先使用模式聚类将各个数据集分为数个领域,然后利用这些领域划分结果通过信息检索技术推测查询关键字的语义,进而对结果进行排序。整个处理过程可以分为两个部分: 首先,针对海量数据和XML树形结构的特点,本文提出了一种新颖有效的XML模式聚类方法,可以在无人工干预的情况下将XML数据集根据其模式聚集到不同的领域。其次,对于聚集好的各个领域中的数据,针对查询的关键字,对相关领域计算 关键字的评价得分,评分的高低代表了用户的关键字的查询语义和领域的紧密程度,然后将再其结合XML关键字本身查询结果进行排序后将结果返回给用户。