论文部分内容阅读
作为浅层语义分析的一种实现形式,近年来语义角色标注逐渐发展成为自然语言处理领域的一个研究热点,并被广泛应用到问答系统、信息抽取以及机器翻译等多个领域。语义角色识别是对给定句子中的目标词,自动识别出句子中的某个成分是否是该目标词的语义角色。语义角色识别是语义角色标注两个子任务(角色识别和角色分类)中首要子任务。本文只研究汉语框架语义角色的识别问题。本文基于词分布表征采用了神经网络模型,实现了可以融合多种特征的神经网络训练、测试算法。关于词分布表征(distributed representations),本文使用了目前比较流行的三种表示,其分别是C&W, RNNLM和Word2Vec。本文是将语义角色识别任务转化为序列标注问题,以字和词为标注单位分别做了研究。以字为标注单位时,本文抽取出了字特征、相邻字的组合特征、基本块特征等多种字层面特征;以字为标注单位的最好结果为50.10%;以词为标注单位时,本文抽取出了词特征、词性特征、位置特征、目标词特征、相邻词的组合特征、相邻词性的组合特征、基本块特征,以及词、词性和位置三者之间的两两搭配特征等多种词层面特征。以词为标注单位时达到72.89%,是目前汉语框架语义角色识别的最好结果。但该结果是基于正确分词时的实验结果。特别地,为了获得基本块的分布表征,本文首先构建了基于深层神经网络的汉语基本块识别最优模型。利用最优模型对输入层进行基本块识别,在此过程中选择若干隐层分别作为基本块的分布表征,将其与角色识别的神经网络模型的中间层做级联(concatenated),联合形成最后的分类模型的特征表示向量,最终该模型的实验结果达到72.89%,而不加入基本块的这种级联特征的最好结果为72.70%,说明这种级联特征还是有效的。本文的创新之处是:1)实现了可以融合多种特征的神经网络训练、测试算法;2)将基本块识别的深层神经网络模型学习到的基本块的分布表征,与角色识别任务的神经网络模型的中间层做级联,提高了模型的标注性能。