汉语虚词用法在短语句法分析中的应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yutou1888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的基本任务之一,是语义理解、问答系统等自然语言理解任务实现的基础。本文根据已有的现代汉语虚词用法知识库,初步探讨了基于汉语虚词用法的短语边界识别在句法分析中的应用,将虚词用法应用于不同短语边界识别方法;在此基础上进一步提出了基于短语边界的句法分析模型Phrase_Based Parser。在CTB8.0数据集上进行的实验表明Phrase_Based Parser能够改正因某些短语边界错误而导致的错误句法树,平均准确率提升了6.9%。本文的主要研究工作如下:1)根据现代汉语虚词用法知识库对CTB8.0(Chinese Treebank8.0)中的虚词分布进行了统计分析,统计显示在CTB8.0的全部词中虚词占有很重要的比例。利用CRF模型对CTB8.0中的虚词用法进行自动识别标注。使用Berkeley Parser对CTB8.0的原语料进行句法分析,对得到的句法树进行错误分析,发现包含虚词成分的短语边界平均错误率达40.76%,可见短语边界的正确性将会影响句法分析的准确率。2)构建基于CTB8.0的语料库。本文构建了基于CTB8.0的标准短语边界标注语料库,设计了一组短语标记符号,并构建了基于CTB8.0的短语标记树库。3)研究基于虚词用法的规则和统计模型在介词短语、连词相关短语以及包含助词“的”的短语边界识别中的应用,实验结果表明,基于规则的短语边界识别结果平均准确率达到47.06%;基于CRF模型的短语边界识别结果平均准确率达到了73.69%,基于CNN模型的短语边界识别结果平均准确达到了75.54%。4)提出了一个基于短语边界的句法分析模型Phrase_Based Parser,在CTB8.0的数据集上的实验表明,对包含介词短语的句子,Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了2.72%,对包含连词相关短语的句子Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了1.32%。5)提出了一个基于虚词用法的句法分析模型Usage_Based Parser,将短语边界识别的结果使用Usage_Based Parser进行句法分析。实验结果表明,介词“据”的介词短语的句法分析结果准确率提升20.69%,连词相关短语的句子句法分析结果准确率平均提升6.9%。
其他文献
近年来,为了满足材料科学、结构力学以及生物学等学科对于物质微观结构探索的需求,国内外先后建立了几个大型的同步辐射装置和中子源装置。气体中子探测器是这些装置中的重要
随着网络技术的不断发展,网络入侵的方法和手段也日益丰富,传统的静态防御、被动防御很难满足当前网络安全的需求。基于蜜网(honeynet)技术的主动防御的安全体系逐渐成为网络
随着Internet和信息技术的迅速发展,三维模型已成为继声音、图像和视频之后的第四种多媒体数据类型。三维模型检索技术成为多媒体信息检索领域新兴的研究热点。三维模型检索
蛋白质组学(Proteomics)已经成为当前生命科学研究新的主旋律,其中的蛋白质序列鉴定对于系统了解蛋白质的结构、功能及进化关系等生物学知识具有十分重要的意义。质谱技术具有
无线Ad Hoc网络的节点之间通过无线链路通讯,且不依赖于任何预先设置的基础设施。但无线信号覆盖的范围通常比较有限,Ad Hoc网络中的端到端传输路径通常是多跳的。由于节点要
航班着陆调度(Aircraft Landing Scheduling, ALS)是机场终端区空中流量管理(Air Traffic Flow Management, ATFM)的核心,它旨在为待着陆的航班给出有效的着陆调度方案,保证
现有跟踪系统大部分采用PC机或工控机结构,主要考虑图像处理涉及数据量大、对处理器要求高的特点。然而,这种结构存在明显不足:   (1)大量无意义画面的回传,增加了数据通
手机上网具有无可比拟的优点,它不受物理条件的限制,具有灵活、不易受黑客攻击等特点。由中国互联网络信息中心发布的《2009年中国移动互联网与3G用户调查报告》中指出,截至2
随着信息化技术在钻井行业的应用,钻井工程数据呈现指数级增长方式,海量的钻井工程数据的存储、分析及利用成为当前钻井工程行业的一个热点问题。本文利用Hadoop技术,设计并
随着互联网的高速发展,网络对安全保障提出了更高的要求。传统的安全技术主要是通过修补漏洞、安装防火墙、防御外部攻击等防御手段来抗击计算机外部的病毒、黑客的攻击和入