论文部分内容阅读
语义搜索是目前万维网研究的热点,目标是从大量的网络资源中找到真正语义相关而不是仅仅是关键词匹配的内容。为了实现语义搜索, 必须用机器可以理解的元数据对网络资源进行标注。传统的语义搜索研究试图首先定义好的一个统一的本体,这个本体一般使用RDF或者OWL等标准的标记语言表示;然后使用这个本体去标注网络上的各种资源和以及资源之间的关系。这种先建立本体,后添加标注的自上而下的标注方法已经成功的应用在生物信息学,知识管理等领域。但是它具有以下缺点:1.当前的网络上的资源非常复杂,要为这样大规模异构的网络资源建立一个共同的本体非常困难。2.现在的网络是一个动态的环境,即使构建出了这个这种全局统一的本体,它也很难适应网络上资源的快速变化。3.这种标注需要标注者具有一定的本体工程的背景知识,这对于普通的网络用户来说是一个很高的门槛。社会化标注是目前新兴的一种标注方法,它允许普通的网络用户自由选择标签来标注网络资源,不需要遵循一个公共的本体或者词汇表。这种自下而上的标注方法被称为民间分类法,它克服了传统标注方法的缺点:标签是自由选取的,不需要建立一个统一的本体;也不要求用户有专业的背景知识,因此普通的网络用户也可以参与标注;同时民间分类法可以随着用户的不断标注而进化,适应动态的网络环境。但是社会化标注由于缺乏统一的本体指导标注,标签会出现一次多义和多词一义的问题。缺乏明确的语义信息,社会化标注很难被运用到语义搜索之中。本文采用“浮出语义”的思路,研究社会化标注数据中用户,网络资源和标签三者之间关系,建立了一个无指导学习的统计学模型,挖掘出社会化标注语义信息。通过得到的量化语义信息,可以解决社会化标注中一词多义和多词一义的问题,明确社会化标注的语义信息。根据这些浮出的语义信息,本文提出了一系列社会标注数据上的语义搜索模型,包括:个性化搜索,知识发现搜索等模型。本文还实现了一个名为deegle的在线智能搜索系统,在美味书签网的社会化标注数据上实现个性化搜索,知识发现等功能,初步的评估表明deegle可以找到语义相关但是通过关键字查找技术无法找到的网络资源,实现语义搜索。