科学文献的表示研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bill119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域中,嵌入技术是一种将文本表示为计算机易于处理的形式的技术。但是,大多数的嵌入模型,无论是词级别,还是句级或者文档级的模型,其关注范围仅限一个文档之内,最多关注到上下句或者不同段落之间的关系,并没有利用文档间的相关性信息,这限制了模型对于文档级别文本的表示能力。最近出现了一种利用引用信息这种文档间信息进行嵌入的模型,该模型为了利用文档间的相关信息,并不直接将这些相关信息随着文档一同输入神经网络,而是将具有某种相关信息的多篇文档作为一个训练样例输入模型中进行训练,从而使得相关性更高的文档,能在向量空间中表示成距离更近的嵌入向量,而相关性较低的文档表示成的嵌入向量距离更远。虽然该模型在不少任务上取得了较好的效果,但还有不足之处,一是其利用的信息类型太少,因为目前的嵌入模型只用到了引用信息,而文档间的相关信息还有很多。二是引用信息本身,对于一篇文章来说,不同的参考文献起到的作用并不相同,有的参考文献仅作为背景提及,而有的则是作为该文章创作的直接思路来源,并且还存在未引用但关系很近的文章,所以不同参考文献的相关度差异很大。根据以上两个不足之处,本文提出了两个改进方法,第一个方法是利用作者信息来改进模型。本课题研究科学文献,即各个领域的学术论文这种文本类型,这一类文本中含有包括作者、出版方在内的各种类型的信息可以利用。根据该方案,我们参考目前利用引用信息的方法,通过以是否同作者作为判断文章相关性的依据,来构建更高质量的,包含更丰富信息的训练样例来进行训练。根据该思路进行的实验在部分任务上表现优于现有的利用文档间信息的模型。第二个方法是区分不同类型引用信息,分别探究其对于神经网络训练的影响,再将这些信息结合起来改进模型。根据该方案,我们根据参考文献在引文网络上的各种关系如间接引用、同被引等关系来判断文章相关性,来构建高质量训练样例进行训练,该工作中的改进实验在多个任务上取得了较为理想的效果。实验结果表明,本文利用作者信息的改进方法和利用引用信息中的不同来改进模型的方法是有效的,这说明包括引用信息、作者信息在内的各种信息,只要能够正确利用其中包含的相关度信息,都能对模型的训练产生正面影响。以上的改进工作对于科学文献的研究分析,以及今后嵌入模型的改进而言都具有一定的意义。
其他文献
近年来,随着全球定位技术和无线通信网络的快速发展,轨迹数据更易于被采集与使用,为城市交通规划、出行规律挖掘、兴趣点推荐等应用提供重要价值。但是,由于轨迹数据具有数据规模大、异频采样性、数据质量差等特性,直接影响了轨迹数据的挖掘效果和计算效率。为此,大规模轨迹数据的分析与处理一直属于学术界和工业界关注的焦点。在大规模轨迹数据的分析与处理中,轨迹相似性查询一直属于关键操作之一,是实现移动行为规律挖掘、
随着近年来智能手机的广泛使用与移动社交平台的流行,使得基于位置社交网络(Location-based Social Networks,LBSN)业务得到了快速的发展,其中包括了兴趣点(Point-of-interest,POI)推荐。POI推荐通过用户生成的签到历史,推测用户感兴趣的POI,在大量的POI候选集中个性化地预测用户下一个时刻将要访问的POI。这使得用户个性化出行体验得到了较好的提升。
超疏水微柱阵列具有特殊的水滴润湿性,能够应用于机翼防结冰、船舶航行减阻等领域,但其制备工艺仍存在制备成本高、制备设备要求高、工艺通用性低等不足之处,使得通用的变直径超疏水微柱阵列制备工艺相较于平整超疏水表面构建工艺更加难以运用于工程实践中,难以大规模推广。针对以上问题,本文提出了一种使用弯月面约束电化学3D打印方法制备变直径金属柱的制备工艺,在单次工艺中直接构建跨尺度的柱结构与柱阵列,实现宏微一体
随着科学技术的进步以及经济水平的提高,监控摄像机已经深入到社会各个角落,对社会稳定做出了巨大贡献。然而,数以万计的监控摄像机每天会产生不计其数的视频图像数据,并且监控视频中包含异常行为的片段或许不到万分之一,单靠人工的观察识别会浪费大量的时间,也容易遗漏重要的信息。如果计算机能自动识别出视频中每个人的行为,并对异常行为发出警报,将会节省大量的人力物力。因此,视频中的异常行为识别技术具有重要的研究意
现代安全防护领域多采用基于云计算的人工视频监控方法,在监测低概率出现的异常目标时,监控系统易出现由于视频信息冗余导致网络资源浪费、数据传输存在延迟以及人为失误导致检测质量下降等问题。边缘计算通过在网络边缘端对前端采集数据进行实时分析运算,可以有效减轻云端负载压力,提高系统响应实时性。同时随着深度学习技术尤其是目标检测算法迅猛发展,使得视频监控更加高效智能,有效缓解人工视频监控方法存在的缺陷。因此,
随着移动互联网的飞速发展,定位技术的进步,下一个位置预测已经成为了一项重要研究任务,这对于用户和商家具有重要意义。然而由于用户签到数据的稀疏性、相关特征的复杂关联,下一个位置预测存在巨大挑战。首先,现有下一个位置预测算法缺乏针对某一位置的具体行为模式分析,导致无法充分建模用户的历史行为模式及短距离出行模式。其次,现有模型使用的地理空间特征通常不包含公共交通特征,导致无法有效建模用户长距离出行模式。
幸福是指人类主观上产生的愉悦情绪。它是情感中的积极部分,影响着人们的生活质量。因此,理解人类幸福感是一项有意义的工作。本文主要讨论幸福感的两个方面(Agency/Sociality)。为了拓宽人们对幸福感的感知情况,本文在英文数据集Happy DB和中文数据集Weibo DB上分别对幸福感展开研究。为了分析幸福感的Agency和Sociality方面,在Happy DB数据集上,本文提出了一种基于
小样本图像分类是指从几个简单的例子中学习视觉概念。人类能通过视觉中心充分利用几个样本的特征信息,也能在学习过程中学会学习。本文以元学习为基础,从特征提取和学会学习两个方面提高小样本分类的准确率。为了在小样本图像分类过程中能充分利用图像通道和空间特征的位置信息,本文提出特征交叉注意力方法,该方法首先沿着通道和空间维度全局池化生成特征信息,然后通道和空间特征分别与原有特征交叉使得具有相似特征的位置互相
车辆重识别是指给定具体车辆在特定区域内的一张图像,根据车辆外观信息和部分辅助信息,检索出在不同摄像头下捕捉的同一车辆。车辆重识别技术是智慧交通建设的核心技术之一,对交通监管、道路安全、刑侦破案以及智能交通系统建设意义重大。随着深度学习的快速发展,车辆重识别技术近年来取得了重大进展,但车辆重识别仍面临如何解决类间相似度高和类内差异性大的挑战。深度网络推理加速是指利用有效的网络压缩方法对目前密集的深度
如今无人机已经在各个领域发挥着不可替代的作用,而目标跟踪任务对于无人机来说又是一项极为重要的功能,例如民用无人机的移动跟拍功能、消防无人机用来跟踪山火的走势功能等等。所以能够研发出有效的适用于无人机应用场景的目标跟踪算法显得尤为重要。以往的单目标跟踪算法大致分为两类,一类是传统方法,例如基于相关滤波的单目标跟踪算法;另一类是深度学习的方法,例如基于孪生神经网络的单目标跟踪算法、基于可见光和红外的融