论文部分内容阅读
格库描述了深层结构的语法语义信息,是自然语言处理领域的基础性资源,对句法分析、词义消歧、机器翻译等任务的研究具有重要意义。与日语、英语等语言相比,汉语的格库构建工作未得到足够重视,目前没有完整丰富的汉语格库资源。为此,我们的目标是研究利用大规模的单语语料自动构建格库的方法,并应用此方法构建汉语格库。格库的构建主要面临两个关键问题,首先是如何对语料中的句子进行语义分析以获取谓词及各论元,称为谓词-论元组;其次是如何根据论元语义相似性的聚类,实现格框架的获取。针对第一个问题,我们提出利用一种浅层语义分析方法——语义角色标注,自动标注论元;对于第二个问题,我们研究设计了三种自动聚类方法获取格框架。本文对汉语格库的构建方法进行了系统研究,主要工作和创新点归纳如下:(1)提出基于深度学习的汉语语义角色标注方法。语义角色标注即对句子中与谓词有关的论元进行角色标注,如施事、受事等。在传统的语义角色标注方法中,存在特征工程繁琐、词向量表示依赖上下文窗口内左右词的共同作用、相邻词的标签间缺少限制等问题。针对这些问题,本文提出的语义角色标注方法做了以下几个方面的改进:1)设计实现Bi-LSTM模型自动学习丰富繁琐的特征;2)进一步扩展实现多层的Bi-LSTM模型,从而获取更深层次的语义信息;3)引入标签转移概率矩阵,对相邻词的标签标注加以限制;4)使用CRF模型对输出端的标签建模,以使整个句子的标签序列得到全局最优化处理;5)引入Gate机制调整词向量表示;6)探索依存句法特征在语义角色标注中的使用。在公开评测上的实验结果表明,本文所提方法比传统的语义角色标注方法在F值性能上提高1.84%,达到79.53%。(2)设计并实现三种基于语义聚类的汉语格框架获取方法,制作评测数据,分析比较三种聚类方法。研究对语义角色标注结果进行自动聚类的方法,获取格框架。由于谓词的语义在很大程度上依赖于受事,因此本文主要依据受事论元进行聚类。我们设计了三种格框架获取方法:1)基于Chinese Restaurant Process的格框架获取;2)基于最大距离的改进型K-means格框架获取;3)基于DBSCAN的格框架获取。为了验证比较三种方法,我们利用汉语十亿词语料库制作了聚类评测数据。实验评测结果表明,三种方法都可以将相似语义的论元很好地聚为一类。其中,基于Chinese Restaurant Process的格框架获取方法效果最好,准确率达到80.97%。(3)应用本论文方法,构建汉语高频动词的格库。利用上述方法,我们选取使用频率较高的30个动词构建汉语高频动词格库。评测结果表明,平均每个动词有30个语义类别,并且语义相似的论元聚为一类,体现了汉语格库的丰富性和准确性,进一步验证了本文所提方法的有效性。综上所述,本文所提出的利用大规模生语料自动构建汉语格库的方法实现了语义角色标注、基于论元的语义聚类,在评测数据上显示了较好的性能,并且在汉语高频动词格库构建上应用了该方法。