基于组合范畴文法的中文语义解析

来源 :东南大学 | 被引量 : 0次 | 上传用户:hwren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义解析(semantic parsing)指的是将自然语言句子转换成其意义表示的过程。近年来,英文语义解析的研究成果丰硕,特别是基于组合范畴文法(combinatory categorialgrammar, CCG)的语义解析方法取得了不俗的结果。相比英文,中文语义解析研究的历史还比较短。目前,中文语义解析器的构建方法主要基于手写规则和模板,使用机器学习方法的研究还很少。除此之外,中文语义解析的应用也基本集中在地理信息系统(Geographic Information System,GIS)领域。中英文之间的差异使得许多优异的英文语义解析方法无法直接应用于中文。本文尝试将基于组合范畴文法的语义解析方法应用于中文,并针对中文的特点进行改进。主要工作如下:  (1)将英文语义解析数据集GeoQuery翻译成中文,并手工分词。GeoQuery数据集包含880个美国地理查询实例。每个实例由自然语言句子和对应的意义表示组成。  (2)将基于组合范畴文法的语义解析方法应用到中文上。本文采用因子化的概率组合范畴文法(probabilistic combinatory categorial grammar, PCCG)作为语义解析器的模型。该模型使用词典归纳过程归纳CCG词典,使用参数估计过程从数据集中学习参数。在中文GeoQuery数据集上进行实验,语义解析器的F1值仅为60.08%,远低于该方法在英文上的结果。这表明需要针对中文特点对基于组合范畴文法的语义解析方法进行改进。  (3)针对词典归纳过程产生较多候选词项的问题,提出逐层切分的词项生成方法。原始方法采用了基于合一的词项生成方法,该方法会产生大量的候选词项。过多的候选词项会导致解析器性能下降,训练时间变长。实验表明,使用逐层切分的词项生成方法后,语义解析器的F1值提升至76.56%。  (4)针对中文中长距离依赖现象普遍的问题,提出了词组合并的方法。在使用逐层切分的词项生成方法时,词组合并对语义解析器的性能提升很大。实验表明,使用词组合并方法后,语义解析器的F1值提升至83.49%,超过了原始方法在英文上的实验结果。
其他文献
本文针对传统铝电解系统中现有的系统数据共享度、集成度低,且只能进行简单的数据录入、查询、统计等事务性的处理过程,不能发现这些海量的数据中蕴含的对企业生产和管理具有
面向方面软件开发(Aspect-Oriented Software Development,AOSD)是对软件系统中横切关注点进行模块化的新途径,面向方面建模(Aspect-Oriented Modeling,AOM)是AOSD中识别、分离
Web日志挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便实用的网站,以更有效地进行网上浏览,这是每个网站所追求的目标。此外,Web站点能否实
JXTA是一组开放的、一般化的点对点(P2P)协议,其允许任何网络设备以对等体的形式相互地进行通讯和协作。随着互联网内容和接入设备数目的不断增长,点对点计算变得越来越流行
20世纪90年代,本体成为人工智能研究领域的热门课题。本体的定义是共享概念模型的明确的形式化规范说明。一个本体主要包括概念、关系、实例、规则和方法。根据本体的定义,在
随着社会日益信息化,社会的日常运行越来越依赖于软件系统,使得软件质量,尤其是软件可靠性已经成为一个不容忽视的问题。为了提高软件质量,软件可靠性测试在整个软件生命周期
随着社会的发展和人类的进步,体育竞技现在已经成为一个国家和民族文明进步的一个重要标志。为了体育竞技水平的提高,越来越多的国家不断将新的科技应用到体育竞技之中。数据
ETL(Extract Transformation Loading,ETL)就是从多个异构数据源获取业务数据,进行数据清洗和和转换,存储到数据仓库的过程。ETL是BI/DW的核心和灵魂,按照统一的规则集成并提
运动目标跟踪是计算机视觉领域中一个非常活跃的课题,它融合了图像处理、模式识别、人工智能和自动控制等领域的先进技术,并具有非常广泛的应用领域,包括视频智能监控、人机交互
多输入多输出—正交频分复用(Multiple-Input Multiple-OutputOrthogonalFrequency Division Multiplexing,MIMO-OFDM)系统因其能大幅度提高系统容量而成为下一代移动通信的