汉语格库构建方法的研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户：sduheaven

【摘要】

：

格库描述了深层结构的语法语义信息,是自然语言处理领域的基础性资源,对句法分析、词义消歧、机器翻译等任务的研究具有重要意义。与日语、英语等语言相比,汉语的格库构建工

【作者】

：

张苗苗

【出处】

：

北京交通大学

【发表日期】

：

2018年01期

【关键词】

：

汉语格库汉语语义角色标注神经网络谓词-论元组聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

格库描述了深层结构的语法语义信息,是自然语言处理领域的基础性资源,对句法分析、词义消歧、机器翻译等任务的研究具有重要意义。与日语、英语等语言相比,汉语的格库构建工作未得到足够重视,目前没有完整丰富的汉语格库资源。为此,我们的目标是研究利用大规模的单语语料自动构建格库的方法,并应用此方法构建汉语格库。格库的构建主要面临两个关键问题,首先是如何对语料中的句子进行语义分析以获取谓词及各论元,称为谓词-论元组;其次是如何根据论元语义相似性的聚类,实现格框架的获取。针对第一个问题,我们提出利用一种浅层语义分析方法——语义角色标注,自动标注论元;对于第二个问题,我们研究设计了三种自动聚类方法获取格框架。本文对汉语格库的构建方法进行了系统研究,主要工作和创新点归纳如下:(1)提出基于深度学习的汉语语义角色标注方法。语义角色标注即对句子中与谓词有关的论元进行角色标注,如施事、受事等。在传统的语义角色标注方法中,存在特征工程繁琐、词向量表示依赖上下文窗口内左右词的共同作用、相邻词的标签间缺少限制等问题。针对这些问题,本文提出的语义角色标注方法做了以下几个方面的改进:1)设计实现Bi-LSTM模型自动学习丰富繁琐的特征;2)进一步扩展实现多层的Bi-LSTM模型,从而获取更深层次的语义信息;3)引入标签转移概率矩阵,对相邻词的标签标注加以限制;4)使用CRF模型对输出端的标签建模,以使整个句子的标签序列得到全局最优化处理;5)引入Gate机制调整词向量表示;6)探索依存句法特征在语义角色标注中的使用。在公开评测上的实验结果表明,本文所提方法比传统的语义角色标注方法在F值性能上提高1.84%,达到79.53%。(2)设计并实现三种基于语义聚类的汉语格框架获取方法,制作评测数据,分析比较三种聚类方法。研究对语义角色标注结果进行自动聚类的方法,获取格框架。由于谓词的语义在很大程度上依赖于受事,因此本文主要依据受事论元进行聚类。我们设计了三种格框架获取方法:1)基于Chinese Restaurant Process的格框架获取;2)基于最大距离的改进型K-means格框架获取;3)基于DBSCAN的格框架获取。为了验证比较三种方法,我们利用汉语十亿词语料库制作了聚类评测数据。实验评测结果表明,三种方法都可以将相似语义的论元很好地聚为一类。其中,基于Chinese Restaurant Process的格框架获取方法效果最好,准确率达到80.97%。(3)应用本论文方法,构建汉语高频动词的格库。利用上述方法,我们选取使用频率较高的30个动词构建汉语高频动词格库。评测结果表明,平均每个动词有30个语义类别,并且语义相似的论元聚为一类,体现了汉语格库的丰富性和准确性,进一步验证了本文所提方法的有效性。综上所述,本文所提出的利用大规模生语料自动构建汉语格库的方法实现了语义角色标注、基于论元的语义聚类,在评测数据上显示了较好的性能,并且在汉语高频动词格库构建上应用了该方法。

其他文献

大规模多用户MIMO预编码方案的研究

随着移动端用户数量的不断增加,通过在基站配置大量的天线可以使多输入多输出(Multiple Input Multiple Output,MIMO)系统获得更高的频谱效率,大规模MIMO技术由此诞生。由于

学位

大规模MIMO多用户预编码双重结构多极化

基于程序调用图分析的NGB TVOS恶意应用检测方法研究

近年来,智能电视逐渐走进了人们的生活,智能电视通过开放式平台接入各类应用,带给人们更丰富的玩机体验,让人们对电视的印象进行了彻底改观。同时,智能电视作为一项新兴物联

学位

NGBTVOS函数调用图结构信息恶意应用检测分类算法

基于脉冲神经网络鲁棒性研究与应用

脉冲神经网络（SNN）作为第三代神经网络（ANN）是神经网络研究的最新产物,相较于第一代和第二代神经网络,SNN更加的符合实际生物神经网络的工作机理,在表达信息与计算处理能力上有巨

学位

脉冲神经网络线性动态阈值LEDL-ReSu Me鲁棒性

基于双重检测的并行组合扩频通信序列校验的研究

并行组合扩频通信技术是借鉴软扩频技术思路演变而来的一种高效并行多进制扩频技术,具有较高的频带利用率和信息传输能力,同时还具备传统扩频通信系统的较强抗干扰能力和较好

学位

扩频通信并行组合扩频算式关系校验双匹配逐次对比

牛力士盐城公司回转支承产品营销策略研究

2012国内工程机械市场开始断崖式的下跌,各大工程机械主机厂商开始收缩。牛力士盐城公司恰恰就在此时完成了其中国工厂的建设,正式大规模进入中国市场。经过4年的市场挣扎,企

学位

营销策略牛力士盐城公司工程机械

RSK4在口腔鳞癌发生发展过程中的表达及意义

目的核糖体S6蛋白激酶4(Ribosome S6 protein kinase,RSK4)是核糖体S6蛋白激酶基因家族成员之一,其分子量为90k Da,位于人类Xq21,是MAPK/ERK激酶途径中重要的下游调控因子,Ra

学位

核糖体S6蛋白激酶4OSCC实时荧光定量PCR免疫组织化学

江南地区一次持续性暴雨过程中中尺度对流系统模态研究

本文利用地面加密观测资料、探空资料、NCEP再分析资料和多普勒天气雷达组网拼图资料,结合中尺度模式WRF输出的高时空分辨率资料,研究了2014年6月19-22日发生在江南地区的一

学位

中尺度对流系统弓形回波相对入流拖尾型平行型

混合转发下喷泉码的编译码算法研究

无线通信系统中,由于无线信道具有衰落特性,而且这个特性仍然是影响无线系统性能的决定性因素。想要对抗无线信道的衰落特性,学者们不断的提出来各种方法,其中采用基于多天线

学位

编码协作喷泉码半随机生成法动态调度算法混合转发

基于改进神经网络的SP2P态势融合分析方法

目前的网络环境需要从不同子网收集入侵信息,并从中检测出入侵程度。在这种情况下,分布式入侵检测系统应运而生。然而,传统的网络入侵检测系统因为存在单点瓶颈问题,在面对大

学位

大型分布式入侵检测系统RBF神经网络K-MeansSnort

机器视觉下的材料外观腐蚀特征信息存储与相关性研究

材料是工业产品、生活用品中不可或缺的物质构成,具有重要的作用。大多数材料在诸如大气温度、湿度、雨水等自然环境因素的影响下,特别是金属材料,其表面会产生各种腐蚀现象,

学位

机器视觉材料腐蚀数据库图像处理材料腐蚀特征相关性

汉语格库构建方法的研究

其他学术论文