汉语格库构建方法的研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
格库描述了深层结构的语法语义信息,是自然语言处理领域的基础性资源,对句法分析、词义消歧、机器翻译等任务的研究具有重要意义。与日语、英语等语言相比,汉语的格库构建工作未得到足够重视,目前没有完整丰富的汉语格库资源。为此,我们的目标是研究利用大规模的单语语料自动构建格库的方法,并应用此方法构建汉语格库。格库的构建主要面临两个关键问题,首先是如何对语料中的句子进行语义分析以获取谓词及各论元,称为谓词-论元组;其次是如何根据论元语义相似性的聚类,实现格框架的获取。针对第一个问题,我们提出利用一种浅层语义分析方法——语义角色标注,自动标注论元;对于第二个问题,我们研究设计了三种自动聚类方法获取格框架。本文对汉语格库的构建方法进行了系统研究,主要工作和创新点归纳如下:(1)提出基于深度学习的汉语语义角色标注方法。语义角色标注即对句子中与谓词有关的论元进行角色标注,如施事、受事等。在传统的语义角色标注方法中,存在特征工程繁琐、词向量表示依赖上下文窗口内左右词的共同作用、相邻词的标签间缺少限制等问题。针对这些问题,本文提出的语义角色标注方法做了以下几个方面的改进:1)设计实现Bi-LSTM模型自动学习丰富繁琐的特征;2)进一步扩展实现多层的Bi-LSTM模型,从而获取更深层次的语义信息;3)引入标签转移概率矩阵,对相邻词的标签标注加以限制;4)使用CRF模型对输出端的标签建模,以使整个句子的标签序列得到全局最优化处理;5)引入Gate机制调整词向量表示;6)探索依存句法特征在语义角色标注中的使用。在公开评测上的实验结果表明,本文所提方法比传统的语义角色标注方法在F值性能上提高1.84%,达到79.53%。(2)设计并实现三种基于语义聚类的汉语格框架获取方法,制作评测数据,分析比较三种聚类方法。研究对语义角色标注结果进行自动聚类的方法,获取格框架。由于谓词的语义在很大程度上依赖于受事,因此本文主要依据受事论元进行聚类。我们设计了三种格框架获取方法:1)基于Chinese Restaurant Process的格框架获取;2)基于最大距离的改进型K-means格框架获取;3)基于DBSCAN的格框架获取。为了验证比较三种方法,我们利用汉语十亿词语料库制作了聚类评测数据。实验评测结果表明,三种方法都可以将相似语义的论元很好地聚为一类。其中,基于Chinese Restaurant Process的格框架获取方法效果最好,准确率达到80.97%。(3)应用本论文方法,构建汉语高频动词的格库。利用上述方法,我们选取使用频率较高的30个动词构建汉语高频动词格库。评测结果表明,平均每个动词有30个语义类别,并且语义相似的论元聚为一类,体现了汉语格库的丰富性和准确性,进一步验证了本文所提方法的有效性。综上所述,本文所提出的利用大规模生语料自动构建汉语格库的方法实现了语义角色标注、基于论元的语义聚类,在评测数据上显示了较好的性能,并且在汉语高频动词格库构建上应用了该方法。
其他文献
随着移动端用户数量的不断增加,通过在基站配置大量的天线可以使多输入多输出(Multiple Input Multiple Output,MIMO)系统获得更高的频谱效率,大规模MIMO技术由此诞生。由于
近年来,智能电视逐渐走进了人们的生活,智能电视通过开放式平台接入各类应用,带给人们更丰富的玩机体验,让人们对电视的印象进行了彻底改观。同时,智能电视作为一项新兴物联
脉冲神经网络(SNN)作为第三代神经网络(ANN)是神经网络研究的最新产物,相较于第一代和第二代神经网络,SNN更加的符合实际生物神经网络的工作机理,在表达信息与计算处理能力上有巨
并行组合扩频通信技术是借鉴软扩频技术思路演变而来的一种高效并行多进制扩频技术,具有较高的频带利用率和信息传输能力,同时还具备传统扩频通信系统的较强抗干扰能力和较好
2012国内工程机械市场开始断崖式的下跌,各大工程机械主机厂商开始收缩。牛力士盐城公司恰恰就在此时完成了其中国工厂的建设,正式大规模进入中国市场。经过4年的市场挣扎,企
目的核糖体S6蛋白激酶4(Ribosome S6 protein kinase,RSK4)是核糖体S6蛋白激酶基因家族成员之一,其分子量为90k Da,位于人类Xq21,是MAPK/ERK激酶途径中重要的下游调控因子,Ra
本文利用地面加密观测资料、探空资料、NCEP再分析资料和多普勒天气雷达组网拼图资料,结合中尺度模式WRF输出的高时空分辨率资料,研究了2014年6月19-22日发生在江南地区的一
无线通信系统中,由于无线信道具有衰落特性,而且这个特性仍然是影响无线系统性能的决定性因素。想要对抗无线信道的衰落特性,学者们不断的提出来各种方法,其中采用基于多天线
目前的网络环境需要从不同子网收集入侵信息,并从中检测出入侵程度。在这种情况下,分布式入侵检测系统应运而生。然而,传统的网络入侵检测系统因为存在单点瓶颈问题,在面对大
材料是工业产品、生活用品中不可或缺的物质构成,具有重要的作用。大多数材料在诸如大气温度、湿度、雨水等自然环境因素的影响下,特别是金属材料,其表面会产生各种腐蚀现象,