论文部分内容阅读
随着网络技术的迅猛发展,当今的万维网出现了多代共存、共同发展的新局面。传统万维网(Web 1.0)构成了当今万维网的主体。社会化万维网(Web 2.0)近年来飞速发展,成为了当今万维网的新兴力量。同时,为了能够让机器和人一样地理解并处理各种网络数据,人们正积极推进语义万维网技术的发展,并预期其将成为下一代网络的主流载体(Web 3.0)。所有这些网络的应用均层出不穷,各类实体描述信息散布其间。这给用户带来便利的同时也带来了一个关键的问题,即信息过载。如何从这一巨大而复杂的信息空间中,有效地找到用户所需要的各类实体信息也成为近年来的一个研究热点。根据这一需求,本文分析了各代网络的特点,提出了在Web 1.0、2.0和3.0中进行实体信息检索与挖掘的概念,针对每代网络进行了体系化的理论研究工作,并提出了一系列的挖掘算法。在传统网络(Web 1.0)中,大部分研究工作都以提供用户最为相关的网页为目标,而现实中,越来越多的用户开始关心网页内部所蕴含的信息,而非网页本身。针对这一需求,本文第一部分提出了以下算法对网页中的实体信息进行挖掘:1)专家搜索:本文提出了基于概率的细粒度专家搜索模型。2)专家-技术隐式关联挖掘:本文提出了多类型的可分混合模型用于高效地挖掘专家和技术之间的隐式关联。3)竞争者挖掘:本文提出了一个创新的算法(CoMiner)用于从网上自动地挖掘领域无关的竞争对手信息。4)时间关联的事件挖掘:本文提出了一个新的算法(TESer)用于挖掘网络中的事件信息并按照时间进行整合。Web2.0的快速发展带来了大量对网页、图片、论文、专家等实体进行的大众标注,比如Del.icio.us书签网、Flickr图片共享网等。本文第二部分分析Web 2.0的特性,挖掘其中的各种实体关系,并用挖掘到的信息改善各种现有的应用:1)社会化搜索:本文提出了两个新算法分别用于改进网页搜索的动态排序和静态排序。2)社会化语言模型:本文提出了一个语言标注模型用来进一步改进语言模型的检索效果。3)社会化浏览:本文提出了一个改进的网页浏览算法,该算法能够充分地利用网页标注之间的语义关联和隐含的层次信息。为了让机器也能理解网络信息,人们提出了语义万维网。目前语义万维网正处于早期发展阶段。作为现有万维网的下一个自然扩展,本文将其称为Web 3.0。本文第三部分对Web 3.0的构建及其应用进行了探讨性的研究:1)语义浮出:通常语义万维网通过专家定义本体信息来构建,本文提出了基于社会化标注自动浮出层次化语义的算法。2)语义应用:本文进一步将语义信息应用到Web服务组合中,并提出了一个新的语义服务的查找与组合算法。研究结果表明,通过对Web 1.0、2.0和3.0环境下的实体挖掘研究,能够极大地减少用户获取目标信息所需的时间,并能更好地帮助用户理解搜索目标。