论文部分内容阅读
图结构是一种广泛存在的数据结构,它具有清晰直观展现各节点之间关系的特点,是一种对现实世界的直观表达。图论作为当今图结构的理论基础,在社交网络、基因计算、社会图谱等方面有着广泛的应用,并以其优秀的性能和直观的表现引领了所在领域的发展潮流。计算机的普及带来了互联网的快速发展,海量的数据和信息以电子文档形式迅速积累。作为互联网的使用者,都需要直接或间接地面对海量数据带来的信息搜集和使用的困难。当面对海量的信息爆炸带来的巨大需求和挑战时,人们迫切需要一些能自动化帮助人们从海量信息中精准和迅速地获取真正信息需求的工具。本文的研究主要分为两个方面:一方面是基于图论为基础的理论研究,该部分主要是为模型的构建提供了理论基础;另一方面是基于自然语言处理的实用技术研究,该部分主要为模型提供了分析和构建的工具。本文研究的信息网络图是以图论为基础的对现实世界的一种图结构抽象表达,以及这种数据结构的计算模式。作为当今世界新兴的研究领域,相对于传统的以矩阵计算来说,图计算在社交网络、基因计算、社会图谱等领域有着更优秀的性能和更直观的表现。但由于图计算的研究还比较新,现有的研究主要集中于关系、关联等方面,其它方面的特性和研究还处于较为初期甚至是空白的阶段。本文根据图论的基本理论,结合现实的需求,研究了图结构数据的处理、子图过滤和查询、基于图模型的相关矩阵计算和基于图的聚类等问题。本文主要包括五个部分,第一部分为当今互联网信息的发展趋势和图理论在互联网领域中的应用现状;第二部分是图论相关问题的定义和描述;第三部分介绍了基于图理论的信息网络模型的构建方案,主要使用了自然语言处理技术与图论相结合的方法;第四部分是信息网络模型的相关算法的研究,包括热点追踪、实体耦合度技术、信息预测、相关矩阵计算和节点聚类等内容;第五部分是本文的总结和展望。在本文的研究过程中,我们大量结合了当今互联网的发展趋势,使用了自然语言处理、实体抽取等先进的技术,并将其与图理论相结合,二者的结合起到了相辅相成的作用。本文的研究不但解决了信息网络模型的构建、存储等一系列基础的问题,还进一步对信息网络模型的性质和算法进行了深入的研究。在信息网络模型的基础上,解决了信息网络模型中热点追踪,节点聚类,逻辑推导等多方面的内容,基本完成了信息网络模型研究的预期目标。