面向文献数据的网络表示学习方法研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:qq569385748
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文献信息的获取是开展科研工作的重要环节,如何高效地从海量的文献数据中挖掘出有用信息,是科研工作者需要解决的共性问题。文献数据可建模为网络形式进行分析,复杂而庞大的文献网络增加了计算机处理难度。如何将文献网络表示成合理的形式,并高效地运用于作者分类、文章相似性搜索和合著关系预测等文献网络应用任务,对解决现实应用问题具有重要意义。为克服传统网络表示方法计算复杂度高、难以有效融合网络异质信息等问题,研究学者提出网络表示学习(Network Representation Learning),又称网络嵌入(Network Embedding),旨在将网络中的节点表示成低维稠密的向量,以将其作为机器学习模型的输入运用于后续的网络应用任务之中。随着科学技术的飞速发展,文献数据呈指数型增长,现有网络表示学习方法在处理文献数据时主要存在以下挑战:1)文献数据包含作者、论文、会议等多种实体,实体间的复杂交互包含了丰富的语义信息。现有异质网络表示学习方法在处理由文献数据构成的文献信息网络时,难以有效结合用户导向对网络语义信息进行保留;2)文献数据随时间不断变化,其构成的文献信息网络呈现出明显的动态特性,而现有动态同质网络表示学习方法难以有效捕捉网络演化特性和网络历史结构信息;3)文献数据包含的多种语义信息随时间不断变化,当前语义信息与历史语义信息具有紧密关联,而现有网络表示学习方法难以有效保留网络历史语义信息。因此,针对以上问题,本文将文献数据建模为不同的网络形式,对面向文献数据的网络表示学习关键技术展开研究。具体研究工作如下:1.针对现有网络表示学习方法难以有效捕捉文献信息网络中多种语义信息的问题,本文将文献数据建模为异质信息网络,提出一种基于同质子图变换的异质网络表示学习方法(Subgraph2vec),提高了节点分类的效果,并可有效进行节点的相似性搜索。该方法结合不同元路径所包含的语义信息,在同类节点间构建能表征节点关联程度的带权连边,从而构建出多个带权同质子图。通过在带权同质子图上进行带偏置的随机游走获取包含语义信息的同类节点序列,并将节点序列作为节点“上下文”输入Skip-gram模型,以学习节点的表示向量。在多个真实数据集上的实验结果表明:该方法不仅能根据用户需求选择性地对节点进行表示学习,其学习到的节点表示向量在节点分类任务上的准确率较对比算法有一定的提升,并可有效进行节点相似性搜索。2.针对现有网络表示学习方法难以有效捕捉文献信息网络在时间维度的动态演化特性和历史结构信息的问题,本文将文献数据建模为动态同质网络,提出一种基于霍克斯过程的动态同质网络表示学习方法(MHDNE),提高了节点分类和链路预测的效果。该方法将新连边的产生过程建模为时间序列,然后基于霍克斯过程建模网络历史结构和演化特性对产生新连边的影响,使得学习到的节点表示向量更全面地捕捉了网络历史信息对当前连边产生强度的影响。在多个真实数据集上的实验结果表明:MHDNE算法能有效融合网络的动态演化特性和历史结构信息,通过MHDNE算法学习到的节点表示向量在节点分类、链路预测等应用任务中的准确率较对比算法有一定的提升,在可视化任务中类别划分更明显。3.针对现有网络表示学习方法难以有效融合文献信息网络历史语义信息的问题,本文将文献数据建模为动态异质网络,提出一种基于网络增广图和改进的Skip-gram模型的动态异质网络表示学习方法(DHNE),提高了节点分类和节点时间轨迹分类的效果。该方法将时间步长内的动态异质网络看作不同时刻的网络快照,在时间步长上构造包含多个网络快照的网络增广图,以融合网络的当前信息和历史信息。并在构造的网络增广图中,基于元路径的语义信息,进行带偏置的随机游走以获取包含语义信息和结构信息的节点序列。最后利用改进的Skip-gram模型学习节点的表示向量。在多个真实数据集的实验结果表明:DHNE算法能有效融合网络的多种历史语义信息,其学习到的节点表示向量在节点分类、节点时间轨迹分类等网络应用任务上的准确率较对比算法有一定的提升,且在可视化任务中社团划分更明显。
其他文献
消费升级背景下,中国经济快速发展,居民生活水平得到显著提高,人民消费水平逐步从保障温饱向追求富裕过渡,国家消费结构产生了巨大的变化,消费者不再仅仅着眼于产品的质量、
一、基础研究的传统特点及其当代变迁1.基础研究的概念基础研究是指以自然现象和物质运动形式为研究对象,探索自然界发展规律的科学;其研究成果是整个科学技术的理论基础,对技术
在IT行业的创业者中,高燃给大多数人的印象是“成熟”。这个出生于80年代的IT青年没有专业的技术优势,没有雄厚的家族背景,却能一次次从投资者那里挖到“第一桶金”,并从同时代一
西起新疆轮南,途径甘肃、宁夏、陕西、山西、河南、安徽和江苏,最后到达上海,全长4000公里,管径1016mm,建设投资1400亿元,年输气量120亿立方米天然气的第一期西气东输工程,由
CT38连续管作业车为中国石油天然气集团公司科技发展部重大装备研制课题“连续管修井装备与工具研制”及国家863计划课题“连续管技术与装备”的研究成果之一,主要是针对国内
随着油气勘探开发的不断深入,常规地震勘探技术难以解决某些岩性油气藏、裂缝性油气藏等复杂油气藏的勘探问题,于是勘探工作者纷纷把目光投向多波勘探技术的开发应用方面。
中唐音乐是唐代音乐发展史上的重要阶段,是外来音乐亦即胡乐,与本土音乐交融的关键时期。经历安史之乱,胡乐在唐王朝的发展日益扩大,而华音则呈逐渐衰落之势。音乐发展形势与当时藩镇割据的政治形态恰相呼应,势必引起士人的忧虑与紧张,进而对这种形势作出反应。其中,元稹、白居易、韩愈、柳宗元、刘禹锡、张籍、王建、张祜等人积极表达自己的音乐态度,并逐渐渗透进诗歌的写作中,在当时具有典型性并形成一定影响。其他如杜佑
党的十六大明确提出了实现中华民族伟大复兴、全面建设小康社会的宏伟目标,实现这一目标的关键是技术创新.善于原始创新、自主创新,才能推动生产力跨越式发展.中油集团公司根
2010年10月29日,第十三次中国一东盟领导人会议在越南河内举行。会议期间,商务部陈德铭部长与东盟各国经贸部长共同签署了《(中国-东盟全面经济合作框架协议货物贸易协议)第二议
2001年12月11日中国加入世界贸易组织,自此以后对外贸易额持续增长,其中对美贸易更是取得了突破性进展,不仅使中美之间的合作越来越密切,而且使两国人民福祉得以提升。然而,美国政府却打着“美国优先”的旗号,逆全球化潮流而行,中美贸易一直阴霾笼罩。2018年3月开始,美国政府不顾中国反对,执意对从中国进口商品加征关税,中美之间的贸易争端达到了顶峰。中美贸易摩擦激化以来,人民币汇率波动幅度加大,特别是