论文部分内容阅读
随着万维网的快速发展,可搜索的在线数据库数量大大增加。这些在线可搜索数据库中的数据往往隐藏在查询接口之后,被称为深层网络。为了更好地利用这些隐藏在查询接口后的深层网络数据,需要对深层网络查询接口进行集成。对深层网络进行集成需要对查询接口模式进行抽取,并对抽取后的查询接口模式进行匹配,最后对查询接口模式进行集成,最终得到一个可统一访问的查询接口。用户可通过这个统一的查询接口访问深层网络,屏蔽掉与搜索无关的细节,得到最佳的搜索结果。本文主要研究深层网络查询接口模式匹配问题。目前已有一些对深层网络查询接口模式匹配的研究工作,但这些研究工作主要针对匹配过程,大多只利用了从查询接口模式本身获得的信息。虽然可以结合利用多种匹配方法对模式进行匹配,但往往由于在匹配的过程中缺少足够多的用以发现匹配的证据,降低了匹配的准确度。本文在对接口模式进行匹配的过程中,引入了本体的概念。利用本体对概念及概念间关系的明确说明为模式匹配提供更多的证据,以增加在匹配过程中可以利用的语义信息,达到发现更多匹配,提高匹配效果的目的。首先对查询接口模式的属性建立基本模型,然后在领域本体的辅助参与下对属性的基本模型进行扩展,得到属性的扩展模型,并利用属性的扩展模型进行匹配,以达到增加匹配时可以利用的证据的目的。为此,本文提出了一种利用领域本体对属性基本模型进行扩展的算法,该算法丰富了属性的同义词信息和数据实例信息,为查询接口模式匹配提供了更多的匹配证据。基于国内外深层网络查询接口模式匹配的相关研究及该算法,给出了基于属性扩展模型的查询接口模式匹配架构。本文为基于本体的深层网络模式匹配提供了一种新的思路。在匹配的过程中除了利用扩展模型外,对匹配结果的利用也进行了研究。最后经实验验证,利用基于扩展模型进行模式匹配的方法具有较高的召回率和准确度。