基于简单名词短语的汉语介词短语识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:weirguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词短语形式多样,位置灵活,是汉语中十分重要的短语类型之一。介词短语识别问题一直都是自然语言处理的研究热点,准确识别介词短语可以简化其所在句子的内部结构,缩小中心词选择范围,降低后续句法分析的难度及复杂度,还可以提高翻译模板的匹配度。本文通过分析介词短语识别研究的难点及研究现状,提出了一种融合简单名词短语信息的介词短语识别方法:首先利用简单名词短语识别模型识别语料中的简单名词短语,并利用规则库对简单名词短语识别结果进行校正,使其更符合介词短语内部的短语形式和特点;然后使用分词融合方法将简单名词短语识别结果融入到语料中;最后采用多层介词短语识别模型分层识别介词短语,并通过双重错误校正系统校正介词短语识别结果。简单名词短语不但可以保留充分的句法信息,还能减少歧义问题,引入该名词短语信息到介词短语识别方法中不但可以简化句子结构,尤其是复杂句子的结构,还可以降低介词短语依赖长距离上下文信息与CRF模型窗口受限的矛盾。多层介词短语识别的方法通过逐层识别句子中介词短语解决了并列型和嵌套型介词短语识别困难的问题。双重错误校正系统首先利用介词的固定搭配校正介词短语识别结果,然后利用错误驱动学习方法生成的转换规则集对校正结果进行进一步修正,该系统结合了语言学知识和统计学方法,改善了统计模型的数据稀疏问题,有效地提高了介词短语的识别结果。实验结果表明,基于简单名词短语信息的介词短语识别方法是有效的。通过对《人民日报》中的7049个介词短语进行五倍交叉实验,其识别的精确率、召回率及F-值分别为:91.54%、91.46%、91.50%,使用双重错误驱动系统校正后,其识别的精确率、召回率及F-值分别为:93.10%、93.02%、93.06%。本文的实验和方法可以为复杂句子的翻译及模板匹配提供帮助。
其他文献
随着基于身份的密码体制研究的日益深入,出现了大量基于身份的密码学协议。目前已有大量使用于服务器和用户间的身份认证协议,但现实中有要求在用户和用户间进行认证的需求,
随着信息科学技术特别是计算机技术的不断发展,计算机网络技术空前广泛的应用于现今世界。社会各部门对于计算机网络的依赖程度也在不断提高,计算机网络已经成为关系到国计民
随着无线网络产品应用的普及,无线网络管理软件的质量变得尤为重要,拟从工程实际的角度,将软件自动化回归测试引入WIFI网管软件测试,并在一个实际应用环境进行部署和评估。主
VoIP(Voice over IP)是近几年发展起来的一种新的IP网络业务,它是在IP网上传送具有一定服务质量的语音业务。随着IP技术的发展,电信网络的底层也逐渐采用IP承载,形成另一种形
图像拼接作为图像处理领域中的一个关键技术,是当前的一个热门研究方向,已经在PC平台上取得了不少的研究成果。然而,图像拼接在移动平台上的相关研究却一直比较少,一些传统的
在各种真实场景和人物动画的虚拟现实应用中,织物模拟都是必不可少的关键环节之一,其模拟效率和模拟效果往往对场景整体的效率和真实感起决定性作用。大量实践表明,实现织物
近年来随着人工智能及通信技术的发展,许多国际科研组织致力于自治网络的研究,希望通过设计全新的自治网络架构,实现网络的自我管理,这样既能满足用户多样化、个性化的业务需
平台自动调平技术广泛应用于军事、工业、科研等领域,对国民经济建设和社会发展具有重要的支撑作用。评价自动调平系统控制性能的主要性能指标有调平速度、调平精度以及稳定
随着信息技术的不断发展,互联网应用在我们的生活中也渐渐地普及起来,信息化生活已经拉开了帷幕。信息化生活能够使人们的生活更加丰富多彩、快捷便利,生活服务信息平台是为
测试数据生成是动态软件测试中的关键环节,它对于提高软件测试的能力有着至关重要的作用。测试数据生成问题吸引了许多学者对其进行研究,人们提出了多种测试数据生成方法(如随机