融合深度学习的基于图的文本关键词提取算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:koptity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络上出现越来越多的文本,人们迫切需要通过文本关键词快速获取文本的主要内容,以判断文本是否是自己感兴趣的。同时文本关键词提取作为自然语言处理(NLP)领域一项基本研究,其算法的效果直接影响到许多下游任务的效果。因此文本关键词提取算法得到了广泛的关注与研究。基于图的文本关键词提取算法不仅能通过词语之间的关系来衡量词语的重要性而且该类方法为无监督的方法,因此被广泛研究。然而该类方法在构建文本图时大都采用对称的关系对文本图进行构建,如共现关系,这些关系不仅未从文本关键词的意义出发同时也忽略了词语之间关系的差异性。近年来,随着深度神经网络模型的发展,有研究者将神经网络模型引入到文本关键词提取中,并取得了一定的效果。然而基于深度学习的模型往往是有监督的,需要大量的数据进行训练,同时这些模型往往不具有可解释性。为了发挥以上两种文本关键词提取算法的优点同时克服这两种算法的不足,本文将以上两种算法进行结合,并展开了深入的研究。本文主要完成的工作如下:1.结合文本关键词的定义提出了词语关联度,并给出了词关联度的计算方法。同时由于词向量在表征词语上的优越性,提出了使用词向量的投影对词关联度进行表示。2.提出了基于词关联度的文本关键词提取算法,将词关联度用于构建有向的文本图,最后利用构建的有向图实现的文本关键词的提取。在公开的数据集上进行实验对比,证明了基于关联度的文本关键词提取算法的优越性。3.针对现有的基于深度学习的文本关键词提取算法需要大量训练数据和不具有可解释性的缺点,将注意力机制与文本关键词进行结合,提出了基于NSelfAttention的文本关键词提取算法。同时为了训练NSelf-Attention模型,本文提出了基于NSelf-Attention的掩码语言模型。4.在相关的数据集下进行对比实验,证明了本文提出的基于NSelf-Attention的文本关键词提取模型的有效性。
其他文献
基于自然语言描述的行人图像检索研究指的是给出一段自然语言形式的文本描述,从行人图像数据库中检索出与文本描述最相符合的行人图像。随着卷积神经网络和循环神经网络的快速发展,计算机已经具备高效提取图像与文本特征的能力。然而,仅仅提高视觉模型或者文本模型的特征提取能力对基于文本的行人图像检索研究的性能提升收效甚微。由于图像和文本特征分属于不同模态,如何减小不同模态之间的语义鸿沟成为提高基于文本的行人图像检
近年来,由于国家层面对境外融资政策的支持,境外发债迅速成为中资企业特别是地方国企融资方式的新宠。分析中资美元债的发行模式、存在的潜在风险及应对措施,具有现实指导意义。
文本情感分类是一个自然语言处理领域中的常见问题。随着大数据时代数据规模的爆炸式增长,用户在互联网的使用中积累了大量的文本数据,如何从文本中有效提炼出用户的情感倾向成为了如今自然语言处理领域的一大挑战。而文本情感分类方法作为处理该问题的有效方法之一,也因此得到了研究者们的广泛研究。现有的文本情感分类方法主要使用神经网络相关技术及结构以提取到原始文本中的深层特征信息,进而根据提取到的特征完成文本情感倾
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开
人体动作识别通过分析人体运动数据来判断人体动作的类别,是典型的多分类任务。它是行为分析和理解的重要基础和前提,在人机交互、智能监控、智能运动、医疗保健等领域具有广泛应用,近年来已成为了计算机视觉领域的热门研究方向。根据人体动作的信息载体不同,人体动作识别可以分为视频动作识别和骨架动作识别。前者的信息载体是连续的图像序列,后者则基于光学估计、深度相机、动作捕捉设备或三维姿态估计算法等得到的关节三维坐
目标检测算法通常假设训练数据和测试数据服从相同的特征分布,但该假设在实际场景中很难达到。很多实验已经证明了域自适应方法可以减小域之间的数据分布差异,以获得更好的检测精度。将域自适应方法应用到目标检测网络中来减小域差异,这种方法称为域自适应目标检测算法。使用域自适应目标检测算法可以用于无监督或弱监督目标检测任务,减少数据标注需要的人力物力。本文使用深度域自适应目标检测算法,利用有标注的源域数据和无标
作为大数据时代最有效的信息过滤手段之一,推荐系统得到了学术界和产业界的深入研究和广泛应用。一个完整的推荐系统一般存在3方主要的参与者:用户、物品供应商和推荐系统运营商。传统的面向用户的推荐算法通常难以避免物品流行性偏差问题,这极大损害了推荐系统另一方主要参与者—物品供应商的物品推荐公平性需求。本文同时考虑物品供应商和用户的不同需求,开展面向推荐公平性和准确性的推荐算法研究,主要研究内容有以下三部分
视觉语义理解是计算机视觉中一个具有挑战性的课题。而场景图是图像语义信息的抽象表示,它是以图像中目标为顶点、目标之间的关系为边的图形结构。论文研究图像中目标之间的关系,围绕场景图生成任务,首先检测图像中所有的目标,然后识别它们之间的关系,最后将这些信息进行结构化表示以生成图像的场景图。场景图可以为图像理解提供丰富的语义解释,并且为下游的高级视觉语义任务提供理论与技术支撑,对视觉语义理解有着重大的意义
近年来,辅助生殖技术不断成熟,研究表明囊胚比卵裂期胚胎更加符合妊娠生理,移植一个高质量的囊胚,可以在保证顺利妊娠的同时,有效降低多胎妊娠的可能性,从而避免其并发症威胁母婴健康。因此,精确评估囊胚期胚胎形态学参数尤其重要。本文针对囊胚期胚胎数据稀疏的特点,设计面向数据扩充的图像预处理算法,搭建胚胎主体分割模型和细粒度特征识别模型,完成囊胚期形态学参数特征地快速准确识别,最终实现人性化的可视化特征识别
在我们的日常生活中,随处可见各类物联网设备,如何管理这些设备是物联网大规模应用中的一项重大挑战,解决办法之一是在这些设备上安装定位系统,以便实时了解设备的位置。此外,在物联网传感设备提供的应用中,大部分都是基于位置的服务,如果不知道设备的地理位置,那么传感器的数据将毫无意义。大多数基于位置的应用程序,通常会使用全球定位系统GPS来进行定位。然而,使用GPS带来的能耗非常高,并不适用于物联网中低功耗