异质信息网络数据挖掘关键技术研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:genye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术及智能技术的迅猛发展,人类已经从IT(Information Technology)时代走向DT(Data Technology)时代。以互联网为载体,全球大数据如今进入加速发展时期,数据总量每年增长50%,互联网中不同类型数据实体相互作用、相互影响,交织构成了复杂庞大的异质信息网络。现实生活中的异质信息网络随处可见,如电子商务网络、社交媒体网络、移动通信网络、交通运输网络、科学引文网络、医疗卫生网络等。异质信息网络中蕴含丰富的知识,对其进行数据挖掘具有重要的理论与应用价值。异质信息网络组成元素多元,元素间关联关系复杂,这些特点使得我们无法直接利用传统的复杂网络理论对其进行建模分析。因此,如何针对异质信息网络特点,采用科学合理的方法对其数据挖掘与分析是摆在我们面前亟待解决的一个课题。本文从现实应用和理论需求出发,按照‘‘数据预处理”→‘‘网络建模”→‘‘节点信息挖掘”→‘‘边信息挖掘”→‘‘属性信息挖掘’’的思路,归纳出异质信息网络研究中亟待解决的若干关键技术,包括:多源数据融合中实体消歧技术、异质信息网络规范化建模技术、异质信息网络关键节点识别技术、异质信息网络链路预测技术及异质信息网络评分预测技术。通过综合利用异质信息网络中蕴含的丰富信息,包括结构信息、语义信息、网络节点及边属性信息等,对其展开研究。论文的主要研究工作和创新点包括:(1)提出了基于多维特征相似性的实体消歧方法结合实体属性信息及其在异质信息网络中的关联关系信息,提出了基于多维特征相似性的实体消歧方法。首先,针对不同数据源,提取实体及命名对象多维特征信息,包括基本属性特征、关联关系特征等;其次,基于提取的特征进行相似度计算;再次,对多维特征相似度计算结果聚合进而进行实体消歧;最后,结合示例对本章所提出的方法进行应用研究。本文提出的基于多维特征相似性的实体消歧方法不仅利用了实体及命名对象的基本属性特征,而且充分挖掘异质信息网络中的关联关系特征用于实体消歧。(2)提出了异质信息网络规范化建模方法结合异质信息网络特点从静态结构及动态时序两方面出发对异质信息网络进行了规范化建模描述。对于异质信息静态网络,引入网络模式的概念对异质信息网络的元结构进行描述,并基于元路径从结构与语义层面对实体之间关联关系进行刻画;对于异质信息时序网络,定义事件概念对异质信息网络中节点之间的信息交互进行描述,并结合事件发生的时序关系对异质信息网络实体间信息交互的序列进行描述;最后,结合示例对异质信息静态网络及异质信息时序网络建模过程进行应用研究。本文提出的异质信息网络规范化建模方法系统性强,具有较好的扩展性。(3)提出了基于语义的异质信息网络节点重要度评估方法从能力角度出发提出了基于语义的异质信息网络节点重要度评估模型。首先,基于元路径提出了能力综合评估指数对静态异质信息网络能力进行刻画,利用元路径蕴含的丰富语义,充分考虑到多类型节点的协调配合对节点能力进行有机聚合;其次,基于能力综合评估指数采用节点移除法提出了异质信息网络节点重要度模型,计算识别异质信息网络中的关键节点;最后通过示例研究验证提出方法的可行性及有效性。本文提出的基于语义的异质信息网络节点重要度评估方法可有效识别异质信息网络中的关键节点。(4)提出了基于BP神经网络的链路预测方法充分利用异质信息网络中的结构信息及蕴含的丰富语义信息,提出了基于元路径特征的BP神经网络模型来解决异质信息网络链路预测问题。首先,对异质信息网络中元路径特征进行提取;其次,在提取的元路径特征的基础上,构建了基于BP神经网络的链路预测模型;再次,提出了链路预测模型的求解算法;最后,开展应用研究,通过与多种传统链路预测方法进行比较验证所提方法的有效性和可行性。本文提出的基于BP神经网络的链路预测方法通过迭代反馈能充分挖掘异质信息网络中隐含信息,可对异质信息网络多种不同类型链路同时进行预测。(5)提出了基于元路径相似度的用户物品评分预测方法对加权异质信息网络中评分预测问题进行研究,提出了基于元路径相似度的异质信息网络用户物品评分预测方法。首先,从实际需求出发,通过分析元路径所蕴含的实际物理含义抽取网络元路径特征;其次,建立元路径相似度模型,基于此构建单元路径评分预测模型对用户物品的评分进行预测;再次,在单元路径评分预测模型基础上,对不同类型元路径进行集成,构建综合评分预测模型,对用户物品评分进行预测;最后,开展应用研究,通过与多种传统评分预测方法进行比较验证所提方法的有效性和可行性。本文提出的基于元路径相似度的异质信息网络用户物品评分预测方法能充分利用元路径蕴含的丰富语义优势,取得了较好效果。
其他文献
降低肉鸡腹部脂沉积、提高肉品品质是家禽养殖业亟待解决的关键问题。关鍵性代谢中间体的结构类似物作为化学信号对代谢途径发生影响,从而定向地改变动物的生产性能。作为糖
自从20世纪80年代人们发现了一种新奇的基本物质相-拓扑相以来,拓扑量子物质就以其奇特的物理性质和广泛的应用前景极大地吸引了人们的研究兴趣。虽然在超冷原子领域已经构建
<正>1.阅读下面的材料,根据要求写作。饶宗颐是著名国学大师,他达古通今,学贯东西,在学问的天地里硕果累累。有人说:"他有三颗心,第一颗叫好奇心,第二颗叫孩童心,第三颗叫自
微外显子是一类长度不超过51个核苷酸的外显子。在一些早期研究中,微外显子常常因为长度短小而被忽略,未能得到正确的注释。近年来的研究开始揭示出微外显子的剪接特性以及它
运用吨钢能耗e—p分析法,对高炉-转炉流程的节能潜力进行了分析。并以某个钢铁企业的生产数据为例,分析了该企业的节能潜力,为指导该企业乃至钢铁工业今后的节能降耗工作的开展
本文针对磁力研磨机中的振动机构,探讨了其工作原理及特性,并对电磁动力型和极化电磁型振动机构的电磁力进行了计算.
目的:评估多层螺旋CT诊断宫颈癌淋巴结转移的价值。材料和方法:与手术病理结果进行对照分析108例宫颈癌的髂总、髂内、髂外组、闭孔组、腹主动脉旁组淋巴结转移的CT表现并评估
镉(Cd)对生态环境有严重的危害,水稻中精米的镉含量超过食品安全国家标准(GB2762-2017)规定的0.2 mg/kg即为镉大米。在中国,约13万公顷的土地由于受到镉污染而无法利用。硒(Se)是一
多智能体系统是由大量具有自治或者半自治能力的智能体构成,各个智能体间通过相互的协同合作或者竞争完成一项复杂的任务或者产生共同的行为.趋同问题是多智能体系统的基本问