基于统计方法的汉语长句依存句法分析

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:llwjm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的关键性问题之一,它主要研究词和短语如何形成正确的句子,词和短语在句子结构中起什么作用以及它们之间的关系等。句法分析研究领域一直是以短语结构方法为主流,随着句法分析技术的发展,依存语法的优越性逐渐体现,依存句法分析也逐步得到重视。本论文主要采用决策式依存句法分析方法,针对汉语长句的句法分析问题展开研究工作,主要研究内容如下:首先,对汉语句子做分割的预处理工作,通过构建根搜索器Root-Searcher,找到每个汉语句子的根结点,利用根结点信息将句子分割成两个子句,然后分别分析出两个子句的依存子结构。利用这种分割方法,将长句的分析化为对两个短句的分析,句子的复杂度有所降低,因此,提高了句法分析的正确率,解决了长句句法分析正确率较低的困难。第二,改进了句子的分析方法,在分析方法上,采用决策式依存句法分析算法,并针对Arc-eager决策式依存句法分析算法所出现的Early-reduce问题,对Meixun Jin的两段式依存句法分析方法做了一定的改进,经过改进后的两段式依存句法分析方法,能够同时解决由动词和介词所引起的Early-reduce问题。最后,在句子的分析方向上,本论文根据分割后句子的特点,以及汉语语言所具有的投影性特征,提出了采用向前分析和向后分析相结合的策略。相关实验证明,在算法执行过程中,采用两种分析方向相结合的方式,能够显著地提高依存句法分析的正确率。
其他文献
自动网格生成算法产生的初始网格常常包含低质量的网格单元,这影响了后续数值模拟的精度和收敛性。网格质量增强算法以自动网格生成算法产生的初始网格为输入,综合运用各种优
CAD技术的蓬勃发展和广泛应用为新产品的设计提供了丰富的数字资源,合理地重用这些资源能有效地缩短产品开发周期、降低产品成本并提高产品质量。但是相较于模型整体结构,模型局部区域的几何和拓扑结构更为复杂,其特征描述符往往对应树、图等非线性结构,现有的模型检索算法无法有效的完成特定模型局部区域的检索。另外,现有模型检索算法在效率和结果的用户满意度上差强人意。为满足工程实践要求,相关指标亟待提升。本文正是
国土资源空间数据的集中管理、动态维护更新和共享使用一直是国土资源管理信息化建设的难点。本文在分析对比国内外各种GIS技术,以及研究目前浙江省各县级国土资源管理信息化
本文针对电力系统安全分析中易产生不同步、不精确等方面的问题,将网格技术应用于电力系统中,以潮流计算的结果作为电力系统在线安全分析依据,并将该算法部署于Globus网格平台,以“服务”形式进行应用。将经济模型与网格层次模型结合,形成基于经济模型的电力网格体系结构,由价格浮动反映网格资源供需动态变化,提出了基于经济模型的资源分配与调价策略以及基于QoS模糊多属性决策的任务调度算法,分别从经济机制角度和
渔业各部门经过长久以来的信息化建设,开发了一系列渔业信息系统,由于这些系统开发时期和厂商的不同,所属的渔业部门各不相同,使用的操作平台、数据库系统以及提供的数据信息格式
军用移动自组网络是打赢未来高技术局部战争的需要,是建立数字化部队的前提,对我军的军事变革有着不可或缺的意义。但是目前对军用自组网络的研究都是围绕如何在一个完全连接
随着Internet的发展,网络蠕虫对计算机系统安全和网络安全的威胁日益增加,它会扫描和攻击网络上存在系统漏洞的节点主机,通过国际互联网从一个自治域传播到另一个自治域,发生
2000年,香港中文大学的Ahlswede R等开创性的提出了网络编码的概念,改变了网络结点传统的处理方式。网络编码技术允许中继结点在转发消息前对接收的消息进行编码。研究表明,
随着计算机网络技术的迅猛发展与广泛应用,特别是Internet应用的普及,计算机网络已经渗透到社会生活的方方面面,正在改变着人们的生产方式和生活方式。作为城市重点服务行业
随着中国铁路的飞速发展,客运专线和高速铁路相继开始建设,这使铁路信号传输量大大增加,对计算机联锁系统的安全性、可靠性提出了更高的要求。为保证计算的安全性和可靠性,国