异质信息网络的语义元路径分析方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xiang43
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络无处不在,各种交互系统的不同组件相互连接构成的网络都可以称为信息网络。作为数据挖掘领域的研究热点,当前的信息网络分析主要基于同质信息网络,即包含相同类型的对象和链路关系的网络。然而,这种建模方式会造成信息不完整或损失。于是,许多研究人员开始将这些互连的多类型网络化数据建模为异质信息网络,即包含不同类型的对象和链路关系的网络。异质信息网络不仅能够建模简单模式的网络化数据,诸如科技文献数据,而且能够建模复杂结构的网络化数据,诸如由三元组形式表示的知识图谱数据。相比同质信息网络建模,异质信息网络建模可以更加全面地表示系统的组成对象和他们之间的关系,这样会产生更加有意义的知识发现。异质信息网络中的对象和关系包含有丰富的语义信息,而元路径是链接对象类型的关系序列,它可以捕捉这种语义信息。异质信息网络中的很多数据挖掘任务也是基于元路径进行研究的。因此,本文以异质信息网络为研究对象,重点从元路径角度展开异质信息网络分析方法的研究。尽管异质信息网络中已有不少采用元路径的相关工作,但是该研究仍然面临如下挑战:(1)网络包含很多复杂语义关系,当前基于元路径的相似性计算方法难以捕捉复杂关系的语义,无法满足复杂应用的需要。(2)传统元路径的语义描述比较简单,只能表示单一的信息,无法表示更加精细的语义信息。(3)复杂异质网络包含很多类型的对象和关系,没有简单的网络模式,元路径数目庞大,无法枚举。针对以上挑战,本文从元路径、精细元路径以及元路径自动发现三个角度递进展开研究,主要工作包括:1.针对当前基于语义元路径的相似性计算方法只能衡量对象间相似性的问题,本文研究异质信息网络中对象和集合紧密程度的度量,提出了基于近似密度子图的最优集合发现方法。该方法采用元路径和表示学习构建了对象和集合之间的带权异质信息网络,并引入密度子图中的quasi-clique概念,发现与对象关系最紧密的集合。针对作者集合预测问题进行具体建模,以及实验验证与分析。2.传统元路径只能表示单一的语义信息,为了表示更精细的语义信息,本文提出了带权层次元路径,并进一步研究异质信息网络中概念相似性计算方法,提出了基于带权层次元路径的概念语义模型。该模型采用条件概率来计算带权层次元路径中边的权值,并融入概念的结构密度、深度等信息。再将带权路径长度与概念的信息内容相结合来度量概念相似性。最后,在单词相似性数据集和方面类别分类任务中,进行了实验验证与分析。3.针对元路径需要领域专家指定的问题,本文研究异质信息网络中的元路径自动发现,提出了面向实体集扩展的元路径自动发现方法。该方法基于种子实体对网络进行深度和广度遍历,并采用树形结构来描述元路径自动搜索过程。针对元路径重要性不同的问题,本文进一步研究了元路径的权重学习,提出了启发式和半监督学习方法。最后,建立实体集扩展模型并在Yago数据集上验证了方法的有效性。4.针对元路径自动发现效率慢的问题,本文研究异质信息网络中如何高效地发现元路径,提出了基于频繁模式的高效元路径发现方法。该方法受Aprior算法的启发,将实体映射为事务数据库中的一个事务,将实体的关系映射为事务的项,并设定最小支持数阈值来寻找频繁关系,然后进行关系的连接,得到能揭露实体特性的元路径。最后,组合元路径并建立实体集扩展模型,在Yago上进行实验分析,验证了提出方法在元路径发现上的高效性。
其他文献
水稻是世界上最主要的粮食作物之一,其产量和品质至关重要。随着国民经济的发展与农业供给侧结构性改革,水稻的品质引起了广泛的关注。淀粉是水稻中最主要的储能物质,对稻米
引入了一个4维透视图,它为讨论XML文档模式和XML数据库模式建立了一个统一的上下文,统一了XML和数据库2个研究领域的概念.提出了一种建模系统的架构,它能同时支持XML文档建模
随着生物技术发展与广泛应用,口腔医学的临床治疗的手段与干细胞分离提纯与鉴定技术不断提高,骨髓间充质干细胞、牙囊干细胞等在临床医学中应用广泛。本文将针对目前临床研究
目的:西红花又名藏红花、番红花。具有活血化瘀、凉血解毒,解郁安神等功效。因其产量极低,却具有珍贵的医药、化妆品和食品应用价值,一直被视为珍贵中药材之一。长久以来关于
根据可靠性理论,编制了基于Matlab软件的Monte Carlo计算程序,直接产生服从各相应概率分布函数的随机变量数组,从而使编程过程大为简化,解决了Monte Carlo直接抽样困难的难题
吴宗慈编撰的《庐山志》是研究庐山文化的重要文献,文章对《庐山志》中有关佛教人物的部分资料进行了梳理和辨析。
用椭圆盘扁平裂纹模型模拟材料中的缺陷,根据统计断裂理论推导出了任意应力状态下脆性材料的破坏概率和期望强度的计算式,从而为从简单应力状态下测得的材料强度去预测其他应力