【摘 要】
:
图是数据分析的一种关键技术,能够充分建模真实系统中实体之间的复杂关联和交互行为。图表示学习旨在将高维稀疏的拓扑节点映射成低维向量表示并同时保持图中的信息,用于节点分类、链接预测和推荐系统等多种基础任务,是图数据挖掘领域的重点研究方向。当前,图建模和图表示学习主要聚焦于静态的同质图,认为实体类型单一且实体间的交互恒定不变。然而,在实际的社会媒体、电商平台以及学术网络等系统中,通常存在多种类型的实体以
论文部分内容阅读
图是数据分析的一种关键技术,能够充分建模真实系统中实体之间的复杂关联和交互行为。图表示学习旨在将高维稀疏的拓扑节点映射成低维向量表示并同时保持图中的信息,用于节点分类、链接预测和推荐系统等多种基础任务,是图数据挖掘领域的重点研究方向。当前,图建模和图表示学习主要聚焦于静态的同质图,认为实体类型单一且实体间的交互恒定不变。然而,在实际的社会媒体、电商平台以及学术网络等系统中,通常存在多种类型的实体以及实体之间多种类型的时序交互,蕴含着丰富的语义信息并呈现复杂的动态演化特征。例如,电商图数据中用户的点击、收藏和购买等多种时序交互行为反映了其购物兴趣和需求的持续变化。已有的方法大多难以充分保持图上的动态特征和异质语义,学到的节点低维表征在真实场景下的性能受限。此外,由于交互行为随着时间持续累积,图数据规模不断扩大,传统的模型面临到昂贵的计算和存储成本。因此,针对动态、异质、大规模的图数据进行表示学习建模研究,是目前亟待解决的关键问题,具有十分重要的理论价值和广阔的应用前景。本论文围绕动态异质交互图的建模和表示学习展开研究,提出动态异质交互图的概念,建模真实世界中多类型实体之间的复杂动态交互行为,并研究了边级别的异质交互事件生成、语义级别的动态语义演化、动静态特征融合的异质长短期兴趣建模以及大规模异质交互图表示学习的加速策略等关键技术。本论文主要工作与创新贡献如下:一、研究了异质交互事件生成建模,提出了一种基于异质霍克斯过程的动态异质交互图嵌入方法HPGE,用以建模图中异质结构的动态形成过程。通过将图上每种类型的动态交互看作多种历史事件持续影响的结果,该模型首先提出了一种考虑当前交互和历史交互类型的事件激励度量,继而基于霍克斯框架建模动态异质交互图的形成过程,并设计了时序采样策略,提取代表性事件加速模型的有效学习。在节点分类和多类型时序链接预测任务上的有效性实验和消融实验,验证了 HPGE显著优于最新的方法。二、研究了动态语义演化建模,提出了一种动态元路径指导的时序异质交互图神经网络模型DyMGNN,用以建模图中语义的动态变化特征。该模型首次提出了动态元路径的概念,用于时序语义搜索;并基于动态元路径采样和语义层级的异质交互演化注意力机制建模节点不同动态语义之间的相互影响,构建动态语义演化的节点表示。在三个公开数据集上的节点分类和链接预测的实验结果,验证了模型的有效性以及动态元路径和交互演化建模等核心设计的性能。三、研究了异质序列长短期兴趣融合建模,提出了一种融合短期演化特征和长期固有特征的商品推荐算法THIGE,用以同时建模图中的动、静态特征。该模型一方面考虑到用户行为序列的异质性和动态性设计了基于循环神经网络编码的短期兴趣建模,捕捉用户近期的需求;另一方面,设计了基于异质自注意力机制建模多类型交互行为中的长期兴趣,用于刻画用户自身的购物偏好和商品固有的品质特征。进一步地,THIGE提出了习惯指导的注意力机制融合长短期兴趣建模节点表示,用于商品推荐任务。在三个真实电商推荐数据集上的有效性实验和消融实验的结果,验证了模型在推荐场景下的显著优势。四、研究了大规模异质交互图表示学习的加速策略,提出了类型依赖和类型融合的异质重要性采样框架,加速模型学习,在保证模型性能的同时,显著降低存储和计算代价。针对传统的节点层级和图层级采样策略分别存在计算代价大和内存占用多的问题,设计了分块层级的异质重要性采样策略,包括类型依赖和类型融合的采样器以及自归一化和自适应的估计器,通过度量结构特征和语义信息的重要性进行采样加速。在五个公开数据集上的性能和效率实验表明,基于异质重要性采样策略的模型,其内存占用最高降低了 92.48%,时间成本最高降低了 85.95%,边计算最高减少了 93.36%。
其他文献
泛在的高精度位置信息是智慧社会建设的核心基础。基于移动通信网络的室内定位技术在广域无缝覆盖上具有天然优势,多入多出天线等技术使得5G网络能够在下行信号到达时间差之外测量上行信号的到达角度和信号飞行时间等多种高精度异构定位观测信息,在终端定位过程中融合它们能够增加信息冗余量,增强定位系统可靠性,是当下定位导航领域的研究热点之一。但5G网络超密集组网等特点也为观测信息融合高精度定位带来了挑战。本文主要
完达山杂岩带(即那丹哈达地体)位于中国黑龙江东部,与俄罗斯远东地区的锡霍特-阿林增生造山带相连,它们共同构成环太平洋中生代造山带的重要组成部分。完达山西侧以跃进山断裂与佳木斯地块相连,由于佳木斯地块西缘与归属于中亚造山带构造体系的松辽地块接壤,因此该区域在大地构造位置上位于古亚洲洋和古太平洋构造体系的过渡部位,因而一直受到研究者的广泛关注。因此,对完达山杂岩带的研究一方面有助于更清晰的认识该杂岩带
近年来,我国影子银行活动日益活跃,形成了独特的业务模式,一定程度上缓解了我国经济运行中存在的融资难困局,但其生成的系统性风险对我国金融稳定的威胁也越来越大。金融稳定是我国经济健康发展的基础,而维护金融稳定的关键在于有效遏制系统性风险的生成。本文将研究对象聚焦到我国特有的影子银行活动及其引发的金融稳定等问题上,从厘清我国影子银行业务运行模式和特征出发,分析其中存在的各类风险,并从时空维度剖析系统性风
随着5G网络技术的快速发展和移动智能终端的广泛普及,融合网络能力与跨平台特性的移动Web应用促进了大量新型移动互联网业务的出现,包括移动办公、移动生活和移动社交等应用。可以预见,随着移动Web浏览器调用终端设备本地计算能力和效率地不断完善与提升,移动Web服务必将成为未来移动互联网时代的主流形式。然而,受限于移动Web低效的JavaScript计算环境和即时加载的服务提供机制,在移动Web上实现计
毫米波指的是波长为1~10mm的电磁波,其对应的频率为30~300GHz。由于毫米波频段提供了丰富的无授权带宽,使其成为目前最具有潜力的无线通信技术。毫米波技术在5G网络和IEEE 802.11ad/ay无线局域网中的应用巩固了这一认知。然而,与传统网络相比,60GHz毫米波网络的信号衰减快、易被阻挡、覆盖距离短等缺点阻碍了其进一步发展。所幸的是,毫米波的波长远小于传统的低频波段,其相对较小的天线
本论文围绕第五代(Fifth Generation,5G)移动通信的物理层关键技术之一—大规模多入多出(Multiple-Input Multiple-Output,MIMO)信道建模与信道估计技术展开研究。通过在基站侧部署大规模天线阵列,大规模MIMO技术的高频谱效率和高能量效率优势得到了学术界和工业界的普遍认可。无线通信系统的传输速率和质量直接受到无线传播环境的影响,因此,对无线信道的研究是大
研究区位于尼木—那曲高温水热带,当雄-羊八井-多庆错活动构造带中段。区内水热活动发育,自北向南大致可划分为五个水热显示区,北部的恰拉改沟口区与南部的卜杰母沟口区沉积有大片泉华台地。本次工作通过开展羊易地热田的野外调研和泉华取样工作,收集地热流体和岩浆岩的地球化学数据,系统地研究了泉华的年龄、矿物组成和组构特征和地球化学特征,揭示泉华的物质来源,建立水热活动时空格局,探讨研究区水热活动的成因机制,为
广西宝坛地区位于江南造山带西段,对于探讨华南早期演化历史有着非常重要的意义。宝坛地区岩浆活动丰富,广泛出露镁铁-超镁铁质岩、火山岩、花岗质岩浆岩等。本文根据野外调查和镜下观察,选取区域内镁铁-超镁铁质杂岩体、火山-火山碎屑岩、未变形辉长-闪长岩进行了研究,通过详细的野外地质考察、岩相鉴定、矿物电子探针分析、锆石U-Pb同位素年代测试、岩石地球化学测试等分析,探讨研究区内镁铁-超镁铁质杂岩体的期次和
结核病是由结核分枝杆菌感染导致的传染病,目前仍是威胁人类健康的主要传染病。2014年,世界卫生组织报告结核分枝杆菌引起960万人的感染,并造成150万人死亡。据统计,世界上大概1/3的人感染过结核分枝杆菌,但不是所有的被感染者都会引起结核病,大部分无症状或者症状轻微,为隐性感染,仅约10%的感染者发展为结核病。结核分枝杆菌感染宿主,细菌的毒力和宿主的免疫反应决定了疾病的转归。近些年来,关于病原体的
随着智能设备的发展与普及,网络中接入的海量智能终端设备产生了大规模的运行数据,数据规模呈爆发式增长,给资源受限的本地用户带来了极大的数据管理压力。基于云计算服务提供的数据存储与计算的外包服务模式,越来越多的用户乐意将自身的数据外包给云服务平台进行管理。具体来说,在云计算中,通过云服务商提供的存储空间和计算能力外包服务,用户可以依照自身数据规模和计算任务,购买云服务商的存储空间以及计算服务,这样不仅