论文部分内容阅读
目前,互联网中越来越多的数据冗余堆积,严重影响人们获取感兴趣的事件信息,如何利用好海量的数据信息,对其进行抽取识别,挖掘出大量数据背后隐藏的价值,是事件识别领域的研究方向。通过传统的模式识别和机器学习方法来处理突发事件识别,在面对复杂问题时,模型表现能力较为局限,对于深层次事件信息特征的抽取,模型的泛化能力和特征的提取能力受到一定程度的制约。本文针对以上问题,采用深度神经网络作为主要研究手段,开展了突发事件类型识别和突发事件要素识别的技术研究。论文主要完成了以下工作:(1)在突发事件类型识别方面,针对传统识别方法泛化能力不强,对专家领域知识依赖的局限性,以及深度循环神经网络训练时间长且容易出现梯度弥散的问题,提出了一种融合残差结构的神经网络联合模型Conv-RDBi GRU。首先将文本语料通过分词和停用词操作进行预处理,并且使用词嵌入操作训练为词向量矩阵,通过卷积操作提取局部语义特征,然后通过RDBi GRU提取深层次的上下文信息特征,最后将学习到的特征经过softmax函数激活,输出识别结果。利用融合残差结构的神经网络联合模型Conv-RDBi GRU在CEC数据集和网络爬取的自媒体数据集中进行实验,仿真实验结果表明,Conv-RDBi GRU模型在突发事件识别的精确率和召回率方面均有所提升,F值优于其他对比实验的方法。(2)在突发事件要素识别方面,为了解决循环神经网络对于重要程度不同的信息特征可解释性差的问题,提出一种扩充语义维度的Bi GRU-AM突发事件要素识别方法。首先将文本语料通过分词和停用词操作进行预处理,并且使用词嵌入操作训练为词向量矩阵,再将生成的词向量联接词性,依存句法关系等语义特征;然后通过Bi GRU网络提取上下文信息特征,将注意力机制引入Bi GRU网络,使得特征的提取更有选择性;最后将学习到的特征经过Softmax函数激活,输出识别结果。利用扩充了语义维度的Bi GRU-AM模型在CEC数据集中进行实验,仿真实验结果表明,扩充语义维度的Bi GRU-AM模型相较于其他浅层机器学习算法,可以有效地处理突发事件要素识别任务,并且相较于其他对比实验所采用的方法,能够取得更好的F值。