论文部分内容阅读
随着信息技术的不断发展,个人电脑以及移动终端的普及,越来越多的人开始接触到网络。各种社交平台,例如FaceBook,sina微博,腾讯微博等,极大的改变了人们的生活方式,让网上的信息交流变得越发的频繁和便利。互联网现在已经成为一个全球性的信息资源库,里面包含了大量的信息资源,其中的数据具有海量,复杂和变化性极强等特点,为大数据下的信息检索带来了极大的困难。为了提高检索的质量,实现人与web之间的互动,最终达到预测人的搜索的目的,知识图谱就在这种情况下诞生了。随着社交网络的发展,社交搜索变得越发重要。面对社交平台中大量的数据,构建社交平台下的知识图谱,对于提高社交搜索的质量尤为关键。在本文中,本文构建了基于新浪微博的知识图谱。本文在微博数据的基础上,从这些数据中提取了其中的实体及实体之间的关系,在有了实体以及实体之间关系的数据基础之上,开展了本文的研究工作。(1),本文首先在三元闭包原理的基础上定义了平衡的概念,通过平衡来量化实体之间关系的权重。(2),然后使用改进的PFNET(寻径网络)算法来生成单个话题下基本的知识图谱,本文中称为CKG(紧凑型知识图谱)。(3),对于同一个话题,通过不同时间段抓取的数据,可以构建多个不同的CKG,这些CKG中必然包含相同的实体,然后利用这些相同的实体对这些CKG进行合并,从而一个话题下只有一个知识图谱。(4),对于不同话题下的知识图谱,首先需要找到二者之间的关系,如果二者之中有共同的实体,则可以通过实体合并,如果没有,则需要找出二者实体之间的关系,这分为两种情况,有一种关系和有多种关系着几种情况,对每种情况都要单独处理。在多种关系的情况下,本文主要是通过计算每个关系的介数值,最后只保留介数值最大的边。本文对提出的方式进行了实验验证,通过文中所提方法,可以有效的形成微博下的知识图谱。因此,本文对知识图谱的发展有一定的理论和实践意义。