基于卷积神经网络的文本关系提取分析研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wzx85695021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展与广泛应用,Internet中产生了巨量的文本信息。如何从这些文本信息中提取出有用的信息是目前国内外研究人员重点关注的课题之一。关系提取是信息提取中的一个重要子任务,主要用于预测给定句子中包含的两个标记词之间的语义关系。目前,很多关系提取系统利用现有的自然语言处理工具来生成特征,但是这些生成的特征存在一定的问题,而这些问题可能导致关系检测和关系分类的错误。为了解决这些问题,近年来,研究人员开始将深度学习技术应用到关系提取任务中。深度学习技术中的卷积神经网络可以很好的解决利用现有自然语言处理工具生成特征带来的问题。但是,现有的卷积神经网络模型的仍存在正确率不高的问题。因此,本文基于词汇空间特征等对现有卷积神经网络做了进一步研究和改进,以期可以获得更好的关系提取性能。本文主要工作如下:(1)预处理。首先,去除数据中的非文本部分和停用词,并对单词进行词词形还原。接着,通过对长句子进行截断和重复插值,将句子统一为固定长度。然后,使用word2vec工具训练生成研究所需的词汇嵌入模型。最后,为了突出标记名词对的语义特征,本文提出了使用全1占位符来代替标记名词的词汇嵌入特征向量的方法。(2)卷积神经网络模型设计。词汇嵌入模型生成的特征向量只考虑了单词的语义信息,忽略了句子结构对关系提取的影响。为了提取句子级特征,我们需要考虑句子中每个词之间存在的关系。本文根据单词的词汇特征向量之间的空间关系提出了将词汇空间特征向量作为卷积神经网络模型的一个输入通道来提取句子级特征的方法。(3)卷积神经网络模型优化。模型优化分为两部分,一方面是通过加入交叉熵权重来解决数据不平衡带来的问题;另一方面是在训练过程中根据训练情况调整学习率来解决过拟合问题。实验结果显示,本文提出的卷积神经网络模型在F1值上达到了 83.2%,证明了该模型的有效性。
其他文献
党的十八大以来,习近平总书记高度重视扶贫工作。党的第十八届五中全会从实现全面小康的视角出发,指出我国2020年在现行标准下实现全部贫困人口脱贫。农民工问题是关乎我国的
近年来,随着移动通信技术的不断发展,移动互联网技术已成为通信和互联网领域最值得关注的技术之一,我国的移动互联网通信不断发展,通信技术也在飞速发展。原有的GSM、GPRS技
光纤法布里-珀罗传感器是一种体积小、结构简单、成本低、测量精度高、检测范围大的光纤传感器,易于产品化,已经被广泛用于民用工程、航空航天等领域的应变、温度、压力等物
近年来,由于无标签数据易于获得,对其分析的需求越来越高。无监督聚类算法一直是面向无标签数据的机器学习算法研究和实际应用的热点。多核学习在聚类算法中有重要影响力,针
随着信息技术的快速发展,各种行业应用中对多源异构数据的处理量飞速增长,如何对其进行高效的整合是是数据应用中的核心问题。然而,现有的数据整合工具在扩展性、性能、功能
近来,随着信息技术的高速发展,各行各业的数据积累都呈爆炸式增长,这意味着我们已经进入了大数据时代。大数据主要体现在两方面:数据量和数据维度的不断增长以及数据类型的日
众所周知,传统条件下的数字芯核水印保护技术已经被广泛地应用在了数字图像、视频和文本等多种多媒体载体文件上。传统条件下的数字芯核水印保护技术因其操作较为简单、技术
图像作为人类感受与认识世界主要方法,与我们的生活密切相关。而提取图像中关键有用信息进而协助人类研究才是图像本身的价值所在,所以数字图像处理技术便成了计算机领域一个
本文面向RoboCup中型组足球机器人比赛,根据比赛对机器人系统提出的更高要求,在国防科技大学NuBot机器人团队五代足球机器人的技术积累上,设计了第六代NuBot足球机器人系统,
在日地空间物理的研究中,极光是唯一可以通过肉眼观察到的地球物理现象。合理的极光形态分类对研究各类极光现象与地球磁层动力学过程之间的关系十分重要。随着我国极区高空