论文部分内容阅读
万维网上的资源为科学研究及人类社会提供了浩瀚的信息和知识。但是,从万维网的诞生到现在,仅仅在二十多年的时间里,人类已经面临着万维网上由于信息急剧增长所带来的检索问题。于是,万维网之父Tim Berners-Lee又提出了语义网,其核心思想就是让计算机能够自动处理万维网上的信息和知识,为人们提供更加精准的信息检索服务。随着语义网的发展,万维网上已经积累了大量的各个领域的语义资源,这些资源相互关联,形成了一个规模巨大的人类知识库。 面临着规模如此庞大而且日益增长的语义资源,现有的语义推理技术都试图找到完备并且正确的答案,但是在万维网这一开放的、全局的、巨大的、分布的多数据源中,要实现这样的推理现实性不大。为此,研究人员试图从不同的学科和视角努力尝试,其中利用认知科学在人类信息组织和检索方面上的研究成果来解决大规模语义资源的处理问题是一个重要的方向。 城市计算为这种研究提供了极佳的实验场所。城市计算是指城市空间里的任意设备、车辆、建筑、道路,包括人等都可作为一个计算单元,通过城市感知、数据挖掘、智能提取和服务提供这四个主要环节来建立一个城市级别的计算生态系统,为人们提供更美好的城市生活。城市计算通常涉及到多个异构数据源,而语义技术能够提供统一的数据表达形式,利于数据的复用及扩展。同时,城市计算通常以地理领域为基础,而地理领域的很多数据能够公开获取,这些都为城市计算的开展提供了便利的条件。 因此,本文以城市计算为应用背景、以认知启发为主要手段,针对大规模语义检索所面临的问题进行研究,主要研究内容概括如下: 1)针对由语义资源的规模性所带来的问题,有效的资源组织方式能够根据用户需求帮助用户迅速定位到所需资源,加快语义检索与推理的速度。认知科学中的语义网络理论认为人们将各种类别的信息储存在相互联系、具有不同层次的网络结构中。而传统的Web推理方法将所有的数据视为仅分布在同一层次上,因此推理系统需要基于所有数据进行推理,这使得在数据量迅速增大时,推理时间被无限增长。然而不同的用户对于同样的推理任务所需求的推理结果可能是处于不同层次的。受此启发,本文利用本体中类和子类的层次特性,提出了多层语义关联网络模型以组织大规模语义资源,以更加符合人类认知机理的方式为基于Web规模的语义检索与推理提供多层次和多角度的信息服务。 2)针对由语义资源的规模性所带来的问题,有效的资源调度策略能够根据用户需求帮助用户提取到最相关的资源,减少语义推理的规模,从而提高语义推理的速度。认知科学中的有限理性理论认为人类并不会去搜寻无穷无尽的信息以获得一个最好的答案,而会综合利用有限的时间、知识和力量去做理性的决定,在信息检索所需要的消耗和信息利用之间能做出很好的平衡。认知科学中的ACT-R理论使用一个激活方程式描述人类提取最相关信息的过程,是有限理性理论的体现。受此启发,本文基于多层语义关联网络模型,将激活方程式应用于语义资源检索中,并对此检索过程进行了形式化地表述,设计了相关算法,阐述了资源提取的相关策略。 3)城市计算中的一项重要数据是轨迹数据,它能够反映人的各种活动、体现城市的动态性,具备多种应用价值,但是目前基于轨迹数据的研究成果由于缺少语义而不能为多个领域所共用。在此背景下,本文基于本体理论对轨迹数据的语义标注进行建模,提出一种多尺度的标注方法使轨迹数据具有多种语义,以便更好地提升轨迹数据的应用价值。 4)城市计算中的一个重要问题是交通拥堵,而有效的路线推荐不仅能够在一定程度上改善城市的交通状况,而且有助于节能环保。移动手机定位数据(轨迹数据)由于其样本量大、实时性强并且能够在一定程度上描述手机用户的出行行为而正得到研究人员的重视,并广泛应用于城市计算中。我们知道,有经验的用户能够知道哪条路线在哪个时间段内拥堵而在哪个时间段内畅通,或者说一个有经验的用户不一定能够选出最优的路线,但总是能够选择出令他满意的路线,而这与认知科学中的有限理性理论完全相符。本文受此启发,基于大规模实际的移动手机定位数据,利用ACT-R理论中的激活方程式、试图挖掘移动手机定位数据中蕴含的人们选择满意路线的智能与经验,并将这些智能与经验应用于满意路线的推荐(检索)之中。