有标记联合结构的自动识别

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:wo6857953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有标记联合结构的自动识别将为汉语树库的构建做好预处理工作,提高句法分析器的工作效率,同时该识别成果可以直接应用于机器翻译、信息抽取等领域。以往对有标记联合结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的联合结构。本文在为构建汉语树库做好联合结构预处理的前提下,基于大规模语料库用规则和统计的方法分别对有标记联合结构进行了自动识别的研究。统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布、词与短语的序列分布、联合结构的长度分布以及联合结构的联合标记。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方为从语言学的角度量化地研究联合结构提供了精确的数据。根据联合结构的结构平行性和中心语相似性这一特征对联合结构用基于规则的方法进行了识别,由于词语语义计算缺乏量化和精确化、词性规则模板颗粒度过于粗糙,识别效果非常不理想,单层单标记联合结构的封闭测试和开放测试最好的调和平均值分别为62.52%和57.12%,这证明了在目前的条件下仅仅依靠联合结构的结构平行和中心语相似特征来识别联合结构的方法基本上是行不通的。本文详细介绍了CRF提出的背景、基本原理以及在中文信息处理中的应用,并用该模型对有标记联合结构进行了自动识别。分别用基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,封闭测试和开放测试调和平均值最高分别达到:99.17%和88.21%;99.99%和87.85%;99.98%和84.42%。这说明用基于统计的方法无论在识别的效率还是在识别的结果上都要比用基于规则的方法优越。
其他文献
默示条款是指作为当事人双方合意的一部分,不言自明,理应存在于合同,而没有通过合同的语言明示地表达出来的条款。默示条款是民法中一个重要的概念,因此中外法学家对于默示条
湿地是地球表层位于水生生态系统和陆生生态系统之间的过渡性地带,是人类重要的生存环境,更是社会可持续发展的重要资源。湿地是大自然恩赐给人类最富生物多样性的自然生态景
晚明社会政治极其腐败,党派纷争此起彼伏,是一个风云变化的时代。嘉兴李日华是产生在这个飘摇不定年代里的一位闲适安雅的名士。他一生亦出亦隐,时间更多地耽于赏画读帖的世
本文以近几年有关汉语韵律特征的基础研究作为参考,结合蒙古语语音和韵律特点,用声学分析和听辨实验相结合的方法,探讨了蒙古语朗读话语韵律层级单元(韵律词、韵律短语和语调
以长庆常压渣油、胜利减压渣油和加拿大减压渣油为原料,研究了正庚烷沥青质的结构及组成,根据固态13C-NMR分析结果,计算了沥青质分子的平均结构单元参数,并模拟出了沥青质的
随着我国大中城市近些年出行需求的快速增长,为缓解由此带来的日益严重的交通拥堵问题,各大中城市越来越重视公共交通系统的规划和建设;而城市轨道交通系统由于具有运量大、速
我们试图在这篇论文中对黑格尔法哲学的“伦理”概念进行研究。伦理是一个在日常语言中被普遍使用的词汇,但黑格尔在界定和阐释“伦理”概念时,为它附加了特定的内涵。在方法
本文阐述了电力营销计量改造的主要原因,以及电力营销计量通信的主要内容,从准确把握市场动向和提高市场决策的合理性两个方面,分析了电力营销计量改造的重点,并从数据挖掘技
推动农村信息化建设,是解决“三农”问题的客观需要,是新农村建设的应有之义,也是迎接信息化浪潮的必然选择。作为东北地区的农业大省,辽宁省近年来农业生产乏力,其农业生产目前基
笔者多年从事中学语文教学,本文根据我个人的教学经验,就现行的语文课中存的一些常见弊病,提出了一些个人意见仅供大家参考。一、现代语文课的上课方式存在一定的弊端经过多