论文部分内容阅读
随着信息技术及智能技术的迅猛发展,人类已经从IT(Information Technology)时代走向DT(Data Technology)时代。以互联网为载体,全球大数据如今进入加速发展时期,数据总量每年增长50%,互联网中不同类型数据实体相互作用、相互影响,交织构成了复杂庞大的异质信息网络。现实生活中的异质信息网络随处可见,如电子商务网络、社交媒体网络、移动通信网络、交通运输网络、科学引文网络、医疗卫生网络等。异质信息网络中蕴含丰富的知识,对其进行数据挖掘具有重要的理论与应用价值。异质信息网络组成元素多元,元素间关联关系复杂,这些特点使得我们无法直接利用传统的复杂网络理论对其进行建模分析。因此,如何针对异质信息网络特点,采用科学合理的方法对其数据挖掘与分析是摆在我们面前亟待解决的一个课题。本文从现实应用和理论需求出发,按照‘‘数据预处理”→‘‘网络建模”→‘‘节点信息挖掘”→‘‘边信息挖掘”→‘‘属性信息挖掘’’的思路,归纳出异质信息网络研究中亟待解决的若干关键技术,包括:多源数据融合中实体消歧技术、异质信息网络规范化建模技术、异质信息网络关键节点识别技术、异质信息网络链路预测技术及异质信息网络评分预测技术。通过综合利用异质信息网络中蕴含的丰富信息,包括结构信息、语义信息、网络节点及边属性信息等,对其展开研究。论文的主要研究工作和创新点包括:(1)提出了基于多维特征相似性的实体消歧方法结合实体属性信息及其在异质信息网络中的关联关系信息,提出了基于多维特征相似性的实体消歧方法。首先,针对不同数据源,提取实体及命名对象多维特征信息,包括基本属性特征、关联关系特征等;其次,基于提取的特征进行相似度计算;再次,对多维特征相似度计算结果聚合进而进行实体消歧;最后,结合示例对本章所提出的方法进行应用研究。本文提出的基于多维特征相似性的实体消歧方法不仅利用了实体及命名对象的基本属性特征,而且充分挖掘异质信息网络中的关联关系特征用于实体消歧。(2)提出了异质信息网络规范化建模方法结合异质信息网络特点从静态结构及动态时序两方面出发对异质信息网络进行了规范化建模描述。对于异质信息静态网络,引入网络模式的概念对异质信息网络的元结构进行描述,并基于元路径从结构与语义层面对实体之间关联关系进行刻画;对于异质信息时序网络,定义事件概念对异质信息网络中节点之间的信息交互进行描述,并结合事件发生的时序关系对异质信息网络实体间信息交互的序列进行描述;最后,结合示例对异质信息静态网络及异质信息时序网络建模过程进行应用研究。本文提出的异质信息网络规范化建模方法系统性强,具有较好的扩展性。(3)提出了基于语义的异质信息网络节点重要度评估方法从能力角度出发提出了基于语义的异质信息网络节点重要度评估模型。首先,基于元路径提出了能力综合评估指数对静态异质信息网络能力进行刻画,利用元路径蕴含的丰富语义,充分考虑到多类型节点的协调配合对节点能力进行有机聚合;其次,基于能力综合评估指数采用节点移除法提出了异质信息网络节点重要度模型,计算识别异质信息网络中的关键节点;最后通过示例研究验证提出方法的可行性及有效性。本文提出的基于语义的异质信息网络节点重要度评估方法可有效识别异质信息网络中的关键节点。(4)提出了基于BP神经网络的链路预测方法充分利用异质信息网络中的结构信息及蕴含的丰富语义信息,提出了基于元路径特征的BP神经网络模型来解决异质信息网络链路预测问题。首先,对异质信息网络中元路径特征进行提取;其次,在提取的元路径特征的基础上,构建了基于BP神经网络的链路预测模型;再次,提出了链路预测模型的求解算法;最后,开展应用研究,通过与多种传统链路预测方法进行比较验证所提方法的有效性和可行性。本文提出的基于BP神经网络的链路预测方法通过迭代反馈能充分挖掘异质信息网络中隐含信息,可对异质信息网络多种不同类型链路同时进行预测。(5)提出了基于元路径相似度的用户物品评分预测方法对加权异质信息网络中评分预测问题进行研究,提出了基于元路径相似度的异质信息网络用户物品评分预测方法。首先,从实际需求出发,通过分析元路径所蕴含的实际物理含义抽取网络元路径特征;其次,建立元路径相似度模型,基于此构建单元路径评分预测模型对用户物品的评分进行预测;再次,在单元路径评分预测模型基础上,对不同类型元路径进行集成,构建综合评分预测模型,对用户物品评分进行预测;最后,开展应用研究,通过与多种传统评分预测方法进行比较验证所提方法的有效性和可行性。本文提出的基于元路径相似度的异质信息网络用户物品评分预测方法能充分利用元路径蕴含的丰富语义优势,取得了较好效果。