基于频繁模式挖掘的知识图谱关联实体排序

来源 :云南大学 | 被引量 : 0次 | 上传用户:yuyuspecialshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。KG显式的链接数据及规范的实体描述,是关联实体排序的主要依据,然而,KG存在封闭性和不完备性。Web环境下,动态演变的数据蕴含着类型丰富、实时新颖的关联特征,为精准衡量关联强度提供了外部资源。频繁模式挖掘是基于共现原理,面向依赖分析的典型算法,结合Web来源数据可有效发现KG外隐含、潜在的关联特征。频繁模式挖掘算法采用自底向上方式,适用于多种数据类型,是融合KG和Web资源的技术基础。同时,图模型具备简练高效的关联表达和信息建模能力,是整合多类型关联特征的可行框架。因此,本文提出基于频繁模式挖掘的实体依赖图模型(Entity Dependency Graph Model,EDGM),通过图表示学习获取关联强度,进而实现关联实体排序。本文的主要研究内容可以概括如下:(1)针对KG和Web中多源异构数据形式不统一、实体存在歧义、关系不明确等问题,定义EDGM,借助KG关联特征召回候选实体,提出基于频繁模式挖掘对图模型结构进行学习的算法,将不同来源的关联实体整合到统一框架。(2)针对基于局部共现和单一关联因素方法存在的局限性,综合频率、共现和KG类型相似度等不同层面的关联特征,通过定义EDGM权重的性质,给出一种从全局视角融合多种特征的关联强度量化计算方法,增强了模型的全面性和可扩展性。(3)根据EDGM的属性和特点,改进原有节点序列采样机制,提出一种带扩展队列的随机游走采样算法,提升实体向量对EDGM图结构上下文关联性质的表征能力。(4)基于真实世界数据集,选择多组对比方法,对EDGM的排序结果进行有效性测试,并分析超参数对图结构学习和排序指标的影响。实验结果表明,本文提出的基于EDGM的关联实体排序结果,与金标准保持较高的一致性,也具备较好的稳定性。
其他文献
目标跟踪在计算机视觉的研究中有着举足轻重的地位,相关滤波算法的追踪思想来源自信号处理过程,基于这一思想提出了很多跟踪效果良好的算法,在跟踪的准确性和鲁棒性方面都有一定的优势。但是在相关滤波算法跟踪的过程中普遍缺少对跟踪结果可靠性的判断,通常一次性获得跟踪结果同时采用逐帧更新目标模板的策略,容易在发生模板漂移时导致跟踪算法的准确性和鲁棒性差的问题。针对上述问题,本文提出基于相邻帧目标相似度的相关滤波
学位
视频运动目标跟踪是计算机视觉领域的重要研究分支之一,并被广泛应用到如医学影像诊断、导弹制导、机器人、视频监控等军用民用领域中。随着近年来人工智能技术的飞速发展,该领域取得了很大的进步,大量优秀的成果在这一时期涌现,解决了目标跟踪领域中的基础问题。但由于现实场景中的多样性和复杂性,如存在背景混乱、遮挡、光照变化、离开视野等多种因素,使得目前的跟踪算法仍然很难适应多种复杂场景带来的干扰,因此如何提升算
学位
太阳斑点图像重建是天文观测领域中一个重要的研究问题。由于地球大气的影响,地基望远镜只能观测到模糊的太阳斑点图像,在太阳研究中必须要用到高分辨率的太阳图像。所以太阳斑点图像进行高分辨率的重建一直是天文学和太阳物理学中的重要研究内容。传统重建算法利用太阳斑点图的统计信息,计算过程复杂,重建时间较长。剪切波变换是一种多尺度几何分析方法,相对于其他多尺度几何分析方法,剪切波变换能更好的适应人类的感知,同时
学位
伴随现代技术的发展,社会网络不论从规模和复杂度上来看都呈现出快速增长的势态,针对社会网络的研究如日方升。结构洞是指社会网络中的关键性节点,一般理解为在网络中起到“桥”作用的节点,是网络中连接各个部分的关键。结构洞的研究对分析网络信息传播的扩散特性和网络社区发现都有重要意义。传统结构洞发现算法通常侧重于处理无权社会网络,通过网络的结构特征进行结构洞的发现。而在真实的社会网络中,节点之间除了描述它们关
学位
云南由于地处边疆,地域广阔,长久以来陆路交通不便,发展航空是解决交通不便的重要措施。云南是航空大省,目前云南省运营的机场数量较多,在全国位居前三,仅民用机场数量就达15个之多,为了推进机场安检的智能化建设,本文对智能飞机安全监护和智能机务安全检测进行研究。飞机安全监护系统主要对进入停机坪人员的合法性进行自动识别。由于进入停机坪的人员在监控视频中都是小目标,存在光线昏暗,人员密集等复杂场景,对目标检
学位
Web API是一种可供应用程序实现存储、消息、计算等服务功能的应用编程接口。它的好处在于容易被访问、开发、组合和扩展,因此在基于Mashup的服务系统的构建方面起着重要的支撑作用。随着互联网上Web API数量的迅猛增多,开发者面临着如何从众多功能相似的API中挑选最合适的目标以构建Mashup的问题,这为开发者带来了许多挑战。通过构建API的推荐系统则有助于缓解此问题,因此已经有许多基于协同过
学位
随着全球一体化进程发展和“一带一路”倡议的提出,中国与周边国家的经济、技术、文化交流在广泛和纵深方面不断发展。彼此间跨语言的共享和交流成为保障和巩固发展的前提。近年来,自然语言处理技术地进步带来了机器翻译技术的飞速发展和翻译质量的大幅提升,但对于语料匮乏的非通用语翻译来说,仍然难以从根本上解决机器翻译质量低等问题。群智协同计算是伴随互联网和大数据地发展所提出的,对开放网络环境中群智资源的高效管理和
学位
基于位置的社交网络(LBSN)随着技术的不断革新,受到越来越多的人们喜爱,由此产生大量位置相关数据,可用来提供基于位置的服务。在位置服务研究中兴趣点(POI)推荐备受关注。兴趣点推荐可以帮助用户探索感兴趣的地点,在兴趣点推荐时不可避免的面临着用户签到数据稀疏以及如何提高用户满意度的问题。在用户探索某一兴趣点的过程中,时空因素具有较大的影响作用。因此,本文提出两种兴趣点推荐方法,探索时空因素对用户访
学位
安全是机场的生命线,是民航业永恒的主题,建设机场安全监管平台至关重要,“智”造加速势在必行。然而目前机场停机坪一线人员缺乏必要的信息终端,且监控系统不够智能,因此,一方面一线人员面临突发情况,难以迅速找到相关预案,更重要的是缺乏对一线岗位的安全工作和规范操作的实时、完整管控,难以对机场安全态势进行整体把握,相关信息滞后失真,安全管理常常是事后管理。本文对云南机场集团丽江三义国际机场停机坪视频监控中
学位
蛋白质的可溶性是指蛋白质能否以小分子状态溶解于水或其它溶质的能力。可溶性是蛋白质生物物理研究和工业应用成功的重要先决条件,对基于蛋白质的药物设计和食品生产有至关重要的作用。传统生物实验对蛋白质可溶性的测定费时费力,也难以满足蛋白质数量的增长速度。蛋白组数据的累积为基于计算方法的蛋白质可溶性预测创造了可能性,也使之成为一个可选的替代方法。然而,现有方法在表示和挖掘可溶性特征时,仍存在一定的改进空间。
学位