【摘 要】
:
介词短语在汉语中使用的频率很高,其复杂多变的结构造成了识别的困难,而其识别准确率的高低也会影响到一系列句法分析任务的结果。在自然语言处理的研究中,提高介词短语的识
论文部分内容阅读
介词短语在汉语中使用的频率很高,其复杂多变的结构造成了识别的困难,而其识别准确率的高低也会影响到一系列句法分析任务的结果。在自然语言处理的研究中,提高介词短语的识别效果可以降低句法分析的复杂度,提高文本分类的分类效果,并且对机器翻译的性能也有很大的提升。本文对于介词短语的语法特点进行分析研究,结合近年来研究现状和难点,提出了一种基于细粒度短语的多模型融合介词短语识别方法,针对嵌套并列等结构复杂的介词短语进行了改进。不仅能够提高嵌套型复杂介词短语的识别精度,也从整体上对介词短语的识别效果进行提升。首先,利用细粒度短语识别模型识别出语料中的短语信息并进行融合,精简句子结构,降低介词短语内部复杂性;其次,用CRF模型识别具有嵌套结构的内层介词短语,即若嵌套存在则识别内层介词短语,否则直接识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内、外层介词短语识别后,都利用双重错误校正系统对识别的介词短语进行校正。细粒度短语融合的方法,能够在描述语句信息的同时简化结构,使介词短语跨度缩小。分层嵌套多模型识别方法,将同一层次的介词短语同时进行识别,并使用不同的模型识别不同层介词短语,更适合存在嵌套、并列的介词短语。双重错误校正系统利用了规则的方法,将统计与规则相结合,对实验效果进一步提升。在2000年《人民日报》新闻语料中进行五倍交叉实验,结果显示,本文方法识别的介词短语正确率、召回率、F值分别为94.33%,94.28%,94.30%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.31、1.33、1.32个百分点,有效提高了介词短语识别的性能。
其他文献
传统传感器的SLAM一般需要在环境放置识别标志,基于视觉的SLAM系统可以在不改变环境的情况下实现定位与建图需求,并且更加灵活多变,适应复杂环境。但是基于视觉的SLAM系统在
在服务质量(QoS)感知的Web服务组合研究中,衡量服务质量的标准通常是用户的非功能属性。然而,传统的Web服务组合方法难以恰当地处理用户非功能属性的不确定性与多目标性,也并
旋转浮阀(rotary valve)塔板具体低雾沫夹带、低漏液、高操作弹性的特点,但其板上气含率分布还未得到研究,本实验在直径为600mm的有机玻璃塔内,以空气和水为物系,对旋转浮阀
现如今,石油套管等无缝钢管的需求不断增加,尤其是高钢级的无缝钢管的需求极其强烈。这些钢管都需要通过热处理进行钢级的提高才能使用。由于国家大力地推行绿色制造技术,以
交通是衡量一个城市发展的重要指标之一,随着大气污染越来越严重,低碳交通成为人们关注的焦点。然而近几年来人们盲目追求经济增长,尤其在县域城镇方面很大程度上忽略了可持
软件缺陷预测是指通过挖掘软件历史缺陷数据特征,分析软件模块中缺陷数量与特征对应关系构建预测模型,然后利用预测模型预测出新的软件模块中可能存在的缺陷。目前大多数缺陷
针对图模型中节点影响力的研究,是近年来复杂网络分析领域的热门方向之一。研究者们发现,用于描述节点连接关系的各种中心性度量并不能很好地表征节点对整个网络的影响力。例
调研背景作为现代社会的重要组成部分和国家与民族的未来希望,未成年人群体既是实现第一个百年奋斗目标的经历者、见证者,更是实现第二个百年奋斗目标、建设社会主义现代化强
近年来,随着互联网的飞速发展,网络的规模在持续的扩大,各种新型的网络应用日渐增多,网络组成也变得尤为复杂。网络流量分类作为增强网络可控性的基础技术之一,对于网络安全
在线知识社区(Online knowledge community,OKC)在web2.0的环境下应运而生,为用户提供了一个全新的知识交流平台,用户既是知识的接受者,也是知识的制造者。用户以信任关系为