论文部分内容阅读
作为一种全球范围的信息共享设施,互联网已成为推动经济和社会发展的动力。在具有海量资源的互联网环境中,不同的资源又以领域(例如不同主机中存储的资源,电子图书馆中关于某个学科领域的资源等)的形式构成了为数众多的大规模网络资源环境。现今的互联网环境已经逐渐演变成了一个具有领域特性的包含大规模网络资源的复杂信息存储与共享环境。不同的领域中的资源呈指数增长,加之网络资源的异构性、弱相关性及强的动态性等,大规模的网络资源与人的有限认知能力之间的矛盾将更加突出。如何有效的组织大规模的网络资源,并通过简洁的方式从资源空间映射到语义空间,实现大规模资源在语义层的互联,成为网络信息处理领域研究的热点。针对上述研究背景,本论文提出基于关联语义的网络资源语义互联模型—关联语义链网络,主要聚焦于三个关键问题:(1)资源关键词之间语义区分能力。如何计算资源的关键词语义区分能力,使得关键词层次的概念符合人类认知特点,消除关键词与人类认知之间的障碍,减轻人类的认知负担,使得用户在浏览或者检索大规模网络资源的时候更加便捷有效。关键词语义区分能力是资源之间关联语义互联建立的基础;(2)资源之间语义互联能力。如何实现网络环境下的大规模资源在语义层上互联,消除资源语义孤岛,通过简洁的方式从资源空间映射到语义空间,使得各种资源在简洁的语义空间中得到统一和互联;如何协调大规模网络资源环境的规范性和自组织性,统一、规范、有效地组织和管理数据资源和服务资源;(3)资源之间语义约束能力。如何使得资源的组织符合大规模网络环境的动态性与时序性,使得动态网络环境下的无序资源规范化,使资源操作准确、方便,以实现有效的资源共享;如何使得资源的组织符合一定的构造范式(例如无标度或小世界特性),将噪音,冗余的链接从资源之间去除,使得资源的组织更好的满足用户的认知需求。针对这三个关键问题,本论文的主要研究内容为:(1)针对第一个关键问题,本文提出将互联网中的资源进行分层,暨话题层,资源层,与关键词层。分层之后的大规模网络资源可以按照相关的领域进行融聚,提高资源组织的准确性。在关键词层我们提出了关键词的语义区分能力计算,语义区分能力的提出符合人类的认知特点,并为在资源与话题层次有效的构建语义互联提供了坚实的基础。同时,我们提出利用关键词的幂律分布特性函数来计算关键词的语义区分能力。经实验验证:所提出的方法较好的平衡了计算复杂度与准确性之间的关系,为大规模网络资源的语义区分提供良好的应用前景;(2)针对第二个关键问题,本文提出了一个基于资源之间关联语义关系的资源组织模型—关联语义链网络,通过构建资源之间的关联语义链,对特定领域内的大规模网络资源进行有效的管理和组织。同时对该模型的框架,特点,形式化,操作等进行了系统的研究。基于人类认知机理,通过挖掘数据之间的关联语义,建立了资源之间的关联语义链。经过实验验证:提出的关联语义链网络可以准确的建立资源之间的关联语义,且构建过程自动,不需要人工构建本体,在大规模的网络资源环境下,可有效减少用户的认知负担。(3)针对第三个关键问题,本文提出了关联语义链网络模型的时序增量构造算法。利用协同过滤与重复检测技术使得关联语义链网络具有时序特性,满足大规模网络资源的动态性。同时对构造出的关联语义链网络模型建立不同的构造范式,通过复杂网络领域特性的分析,使得关联语义链网络模型兼备规范性与自组织性。此外,本文利用关联语义链网络模型构建了一个具有600万网页规模的网络热点分析系统。经过实际的大规模网络资源环境的验证,本文所提出的关联语义链网络模型可以较好的在关键词,资源,话题层次构建出相应的语义虚拟层,为用户提供有效的知识服务。