汉语虚词用法在短语句法分析中的应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户：yutou1888

【摘要】

：

句法分析是自然语言处理的基本任务之一,是语义理解、问答系统等自然语言理解任务实现的基础。本文根据已有的现代汉语虚词用法知识库,初步探讨了基于汉语虚词用法的短语边界

【作者】

：

冯晓波

【机构】

：

郑州大学

【出处】

：

郑州大学

【发表日期】

：

2016年期

【关键词】

：

虚词用法短语边界识别 CRF CNN 短语句法分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

句法分析是自然语言处理的基本任务之一,是语义理解、问答系统等自然语言理解任务实现的基础。本文根据已有的现代汉语虚词用法知识库,初步探讨了基于汉语虚词用法的短语边界识别在句法分析中的应用,将虚词用法应用于不同短语边界识别方法;在此基础上进一步提出了基于短语边界的句法分析模型Phrase_Based Parser。在CTB8.0数据集上进行的实验表明Phrase_Based Parser能够改正因某些短语边界错误而导致的错误句法树,平均准确率提升了6.9%。本文的主要研究工作如下:1)根据现代汉语虚词用法知识库对CTB8.0(Chinese Treebank8.0)中的虚词分布进行了统计分析,统计显示在CTB8.0的全部词中虚词占有很重要的比例。利用CRF模型对CTB8.0中的虚词用法进行自动识别标注。使用Berkeley Parser对CTB8.0的原语料进行句法分析,对得到的句法树进行错误分析,发现包含虚词成分的短语边界平均错误率达40.76%,可见短语边界的正确性将会影响句法分析的准确率。2)构建基于CTB8.0的语料库。本文构建了基于CTB8.0的标准短语边界标注语料库,设计了一组短语标记符号,并构建了基于CTB8.0的短语标记树库。3)研究基于虚词用法的规则和统计模型在介词短语、连词相关短语以及包含助词“的”的短语边界识别中的应用,实验结果表明,基于规则的短语边界识别结果平均准确率达到47.06%;基于CRF模型的短语边界识别结果平均准确率达到了73.69%,基于CNN模型的短语边界识别结果平均准确达到了75.54%。4)提出了一个基于短语边界的句法分析模型Phrase_Based Parser,在CTB8.0的数据集上的实验表明,对包含介词短语的句子,Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了2.72%,对包含连词相关短语的句子Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了1.32%。5)提出了一个基于虚词用法的句法分析模型Usage_Based Parser,将短语边界识别的结果使用Usage_Based Parser进行句法分析。实验结果表明,介词“据”的介词短语的句法分析结果准确率提升20.69%,连词相关短语的句子句法分析结果准确率平均提升6.9%。

其他文献

气体中子探测器数据获取与分析软件研制

近年来,为了满足材料科学、结构力学以及生物学等学科对于物质微观结构探索的需求,国内外先后建立了几个大型的同步辐射装置和中子源装置。气体中子探测器是这些装置中的重要

学位

数据获取数据分析探测器电子学

基于协同的虚拟蜜网实现与分析

随着网络技术的不断发展,网络入侵的方法和手段也日益丰富,传统的静态防御、被动防御很难满足当前网络安全的需求。基于蜜网(honeynet)技术的主动防御的安全体系逐渐成为网络

学位

蜜罐蜜网虚拟蜜网协同网络安全

基于XML技术和语义矩阵的三维模型检索研究

随着Internet和信息技术的迅速发展,三维模型已成为继声音、图像和视频之后的第四种多媒体数据类型。三维模型检索技术成为多媒体信息检索领域新兴的研究热点。三维模型检索

学位

三维模型检索可扩展标记语言(XML)特征提取语义矩阵特征融合

质谱蛋白质组中肽段及其修饰鉴定算法研究

蛋白质组学(Proteomics)已经成为当前生命科学研究新的主旋律，其中的蛋白质序列鉴定对于系统了解蛋白质的结构、功能及进化关系等生物学知识具有十分重要的意义。质谱技术具有

学位

蛋白质组学肽段翻译后修饰串联质谱数据库搜索

无线Ad Hoc网络多径负载均衡机制研究

无线Ad Hoc网络的节点之间通过无线链路通讯,且不依赖于任何预先设置的基础设施。但无线信号覆盖的范围通常比较有限,Ad Hoc网络中的端到端传输路径通常是多跳的。由于节点要

学位

无线自组网络多径路由负载均衡仿真实验

航班着陆调度的实时优化方法研究

航班着陆调度(Aircraft Landing Scheduling, ALS)是机场终端区空中流量管理(Air Traffic Flow Management, ATFM)的核心,它旨在为待着陆的航班给出有效的着陆调度方案,保证

学位

航班着陆调度元胞自动机实时遗传算法

基于嵌入式的目标检测与跟踪技术研究与实现

现有跟踪系统大部分采用PC机或工控机结构,主要考虑图像处理涉及数据量大、对处理器要求高的特点。然而,这种结构存在明显不足:　　 (1)大量无意义画面的回传,增加了数据通

学位

目标检测跟踪技术图像处理数据通信量

SSMI架构在WAP内容管理中的研究与应用

手机上网具有无可比拟的优点,它不受物理条件的限制,具有灵活、不易受黑客攻击等特点。由中国互联网络信息中心发布的《2009年中国移动互联网与3G用户调查报告》中指出,截至2

学位

WAP内容管理平台Spring架构Ibatis框架MVC模式Ext技术

基于Hadoop的钻井工程实时数据分析研究

随着信息化技术在钻井行业的应用,钻井工程数据呈现指数级增长方式,海量的钻井工程数据的存储、分析及利用成为当前钻井工程行业的一个热点问题。本文利用Hadoop技术,设计并

学位

大数据分布式计算框架分布式存储系统钻井工程数据分析

基于策略的语义远程认证

随着互联网的高速发展,网络对安全保障提出了更高的要求。传统的安全技术主要是通过修补漏洞、安装防火墙、防御外部攻击等防御手段来抗击计算机外部的病毒、黑客的攻击和入

学位

网络安全可信计算远程认证语义远程认证策略

汉语虚词用法在短语句法分析中的应用研究

其他学术论文