基于复杂特征集的汉语句法分析系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jason23431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的一个中心课题。根据目标的不同,目前主要有两类研究方向:第一类着眼于句法分析的完整性,主要依赖于大规模形式化的语言知识;另一类着眼于提取与应用相关的浅层句法信息,依赖的方法主要是概率统计及相对简单的语言模型。这两者通常分别称为理性主义与经验主义。 在中文信息处理领域,目前第一类句法分析系统在性能和效率方面离实用尚有一定距离,在相当一段时间内在实用效率方面落后于经验主义方法。然而,当前及不远的将来对计算机智能化的需要,又迫切需要能提供完整句法结构的高效汉语句法分析平台。这样,拉近句法分析系统与实用之间的距离,已成为亟待解决的问题,而一旦此类方法有所突破,必将深刻地影响经验主义方法,为新的该种方法提供语言知识。本文的研究目标也在于此。 本文设计并实现了一个能有效使用大量语言知识的开放性汉语句法分析系统模型,同时考虑了系统的效率和健壮性等实用方面的问题。语法体系、分析算法和歧义消解是句法分析中的三个主要问题,也是本文的研究重点。与此同时,本文完成了测试评价工作,确保了上述诸项工作的正确性、有效性。 构建语法体系的难点在于如何将大规模的语言知识形式化。汉语具有不同于西方印欧语系的特点,在这方面没有比较成熟的理论可供参考。本文基于合一文法的思想,采用结合复杂特征集的上下文无关文法的形式设计语法体系,并在此基础上结合大量现代汉语语言知识构建了包含三百多个语法语义特征和百余条句法规则的句法知识库,在大规模语法知识的形式化方面做了有益的尝试。同时本文使用预编译技术使得句法知识库具有良好的开放性。 句法分析算法方面,本文在传统双向图算法的基础上做了三点有益于实用的改进:第一、引入了分层渐进的分析模式,有效地提高了分析效率;第二、提供了对多输入的处理,使系统能够与切分标注前处理紧密结合;第三、加入了容错处理功能,使系统具有良好的健壮性。 歧义消解方面,本文以句法规则中特征之间的制约关系为基础,同时使用结合上下文相关信息的概率文法作为辅助手段,对句法分析结果进行优选。这种规则结合概率的混合方法,比单一方法具有更好的效果。 最后本文基于随机选取的测试集,采用多种标准对系统进行测试,从多个角度展示了系统在分析能力、歧义消解能力和效率等方面的性能,力求对所做的各项工作有一个科学、客观、公正的测试和评价,并以此为依据提出进一步的工作方向。 本文所述的理论模型、实现系统及其评测工作,形成了一个崭新的汉语句法体系平台。
其他文献
移动Ad Hoc网络是一个无中心的、多跳的、临时性的自治网络,由带有无线通信装置的移动终端组成,可以随时随地的构建。由于移动Ad Hoc网络组网快速、灵活性等特点使得它被广泛
该文针对变风量(VAV)空调系统正常运行的必要条件--稳定性问题进行研究,首先分析了变风量(VAV)空调系统的模型,把变风量(VAV)空调系统基于分解协调的策略合理地分解为机组部分和末
基于Web的网络教学是当前Internet的一个重要应用领域。网络教学的实施改变了传统的“以教为主”的教学模式,体现了“以学为主,师生互动”的新的教学思想。国内外很多高校都在
网络安全问题是自从有了网络就一直存在的问题。为了保护主机和内部网络的安全,人们建立了多种安全机制,例如访问控制、认证表,以及最重要、最基础的机制:防火墙。传统的防火墙都
关系数据库由于其在商业领域的主导地位以及关键技术的成熟性成为管理XML数据的一个有效工具.利用关系数据库存储、查询、全文检索并管理XML内容的研究是该文研究的重点.该文
计算机三维图像模型和数控制造的结合,使得设计、可视化、仿真和自动化制造复杂的三维物体成为了可能。但同时,随着技术的不断发展,假冒物品的仿真度也在不断提高。通过高质
该文在数字图象形状识别作了一些探索性研究工作.形状识别是模式识别中的重要内容,无论是机器视觉系统还是人类的视觉系统对于景物认识的初级阶段都是其形状,目标物的形状特
该文从如何在面向对象软件工程方法中用规范的形式表达用户对于界面的需求这一核心问题出发,提出了复合用例概念.它以FMP界面抽象模型为理论基础,结合了UML中的用例图和结构
该文主要对面向对象软件中类级别的测试用例自动生成方法以及类级别的回归测试用例选取问题进行研究.作者采用基于规约的测试用例生成的思想,通过在面向对象软件开发过程中产
本文论述了用数字图像技术及数理统计知识对编织复合材料预制件表面图像进行编织均匀性检测的方法;详细阐述了检测系统的硬件结构、软件结构及其实现方法。系统通过对复合材料