基于二元组合文法的概率消歧模型设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:highbird51426
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化迅速发展,自然语言处理作为人工智能的重要研究领域之一。句法分析已成为自然语言处理中的关键问题,因此长期以来一直是自然语言处理领域的重要课题。句法分析主要在机器翻译、信息抽取等方面有着重要的意义,并能极大地提高系统的智能性和实用性。其主要任务就是自动对句子进行句法分析,生成满足句法分析模型的所有句法分析树。句法分析结果的好坏直接影响到系统的准确性。由于汉语言自身的结构、语义复杂性,当前存在多种句法分析方法。本文继承前人的一些有效、经典的思想方法,结合汉语言自身的特点,在二元组合文法的基础上提出了一种基于规则和统计相结合的汉语分析方法。句法分析算法是句法分析器的重要组成部分,它直接影响了句法分析的准确性和时间效率。本文介绍了几种传统的句法分析算法,并且从工作原理、时间复杂度、搜索策略等方面进行比较和分析。其中,重点介绍了经典CYK句法分析算法,首先,根据BCG文法的特性将二元运算关系优先级融合到算法中,实现了分析过程中的剪枝和一定程度上的歧义消解,其最终产生的分析结果树的数量和花费的时间均明显低于传统的CYK算法。其次,本文的图算法以表格方式存储分析过程的中间结果,分析树可以共享空间,降低分析算法的时间花费。并在此基础上对算法进行改进,提出了基于二元组合文法的概率CYK算法。歧义消解是句法分析研究中的重点,本文针对歧义消解问题建立了概率歧义消解模型。在传统的概率上下文无关文法模型的基础上,提出了一个包含中心词信息、语义信息、二元运算关系信息、词间距以及从大规模语料库中抽取出来的概率信息的消歧模型。本文使用基于动态规划思想的Viterbi算法在句法分析过程中动态剪掉不可能导致最优分析结果的无用边,降低了分析算法的时间花费,同时记录下旬法分析的路径,反向回溯输出了最佳分析树结果;采用最大似然估计的方法,为文法规则选择概率,使得训练句子的概率最大:并改进分值计算方法,重新定义计算公式。通过对系统的测试发现,该模型处理12个字长内和16个字长内句子的句法分析准确率达到了72.4%和81.0%,能够较好的保证句法分析的准确性。因此,本文所提出的基于二元组合文法的句法分析模型具有一定的研究意义和实用价值。
其他文献
由于误报率低并且报警结论明确,滥用检测一直是实践中入侵检测系统(IDS)主要采取的技术。同时,面对现实中越来越多的多阶段入侵,人们的共识是将多阶段入侵视为由多个行为组成、
随着Internet的飞速发展,网上的数据资源空前的丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于庞大的信息量,对于每个用户来说,如何能够及时快
摄影测量技术(Photogrammetry)是一种通过记录、测量和解读图像信息及其他电磁辐射现象的模式获取物体和环境的可靠信息的科学和技术。该技术在航空遥感分析、3D场景重建、交
由于XML数据具有自描述特点,可以支持用户自定义的标记,符合Internet上数据描述和存储的需求,所以XML正在逐渐成为Internet上数据表示和数据交换的实际标准。随着其规模和复
生物信息学,是作为80年代兴起的交叉学科,可破译隐藏在DNA序列中的遗传语言。如今,随着生物信息学与计算机科学的高速发展,国际国内的相关研究越来越多,各种生物数据呈爆炸式
Voronoi图是计算几何的一种仅次于凸包的重要几何结构,也是计算几何的重要研究内容之一。由于Voronoi图具有最近性、邻接性等众多性质和比较系统的理论体系,如今已经在图形学
随着Internet的繁荣,网络入侵事件频繁发生,各种攻击手段也层出不穷,其中拒绝服务攻击DoS以其攻击范围广、隐蔽性强、简单有效、破坏性大和难以防御等特点成为最常见的网络攻
关于如何捕获自然界的视觉图像信息并存储一直都是人们比较关注的课题。近几年,随着电子科学技术的不断进步,视频技术得到快速发展,各种视频采集设备层出不穷,视频以其良好的
程序的分析技术在许多领域有广泛的应用前景。例如,对学生程序的自动分析评价;利用程序分析比较工具来辅助软件版权的分析鉴别。但是目前程序分析评价技术主要停留在程序输出结
近年来,随着在Internet上流媒体、视频点播等业务的相继开展,IP组播技术得到了快速的发展。组播是一种有效的支持多点通信的机制,它采用树转发结构,每一个数据包只在节点处被