汉语语义组块识别研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ycbydd21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今社会信息化进程的加快以及互联网的飞速发展,自然语言处理技术被广泛应用于机器翻译、信息检索和人机交互等信息处理领域。经过多年发展,自然语言处理逐渐由基于规则的方法过渡到基于统计的方法。基于规则的方法以深层分析和理解自然语言为目的,在实现中复杂且困难;基于统计的方法以浅层处理自然语言为目的,便于利用计算机实现。语义组块分析技术是自然语言处理中浅层语义分析和句法分析的代表,旨在解释自然语言中语法和语义之间的关联。组块的长度介于句子和单词之间,在各种自然语言中有着不同的划分,本文主要在汉语上展开相关的研究工作。汉语的组块分析并没有统一的描述体系,因研究目的不同,研究者们各自提出了不同的组块分析体系。组块分析是浅层句法分析技术,基于对汉语句子语法和语义综合考虑进行分析的目的,本文在组块分析的相关任务语义角色标注问题上,沿用前人对语义组块的定义,对语义组块识别阶段的关键技术进行了深入的研究。语义组块分析是自然语言处理中浅层语义分析和句法分析的重要内容,本文针对汉语语义组块识别中普遍存在的召回率不高这一问题,提出了一种新的标注方式:IO标注法,并利用支持向量机(SVM)模型二类分类的特性充分地发挥了该标注法只有两种标识的优势,在语义组块识别阶段极大地提高了召回率进而提升了F1值。同时,本文也使用条件随机场(CRF)模型对语义组块按I、O标识进行了序列标注的研究。实验结果表明,在汉语的宾州命题库上,结合IO标注法的基于支持向量机的语义组块识别系统可以取得最好的性能,将F1值提高到了80.30%,高于采取其它标注法的系统,实验还进一步表明不同标注法对语义组块识别系统性能的影响。本文具体的组织结构如下:首先,介绍了语义组块识别的流程及评价方法,从中可知,经过语义组块识别后,句子中的各成分被标注了不同的标识,表征该成分是否是语义组块,本文以标注方式作为切入点,提出了一种全新的标注法,将其应用到语义组块识别阶段,并与传统的标注方式做出比较;其次,结合IO标注法,使用统计机器学习方法CRF和SVM建立统计模型,分别将语义组块识别作为序列标注问题和二元分类问题进行研究,实验结果与对比系统进行了比较,验证了在语义组块识别这一问题上,基于SVM模型的语义组块识别方法在IO标注法下可以取得最好的性能;最后,本文将新的语义资源加入现有系统,以期从新的角度研究语义组块。
其他文献
随着信息技术的迅猛发展,新的教学媒体不断涌现。继多媒体之后,教育技术领域又出现了一种新型教学媒体——虚拟现实技术(Virtual Reality Technology)。虚拟现实技术能够非常
网格计算是近年来得到快速发展的广域网络计算技术。网格计算环境相对于一般网络计算环境来说有着更为复杂的特征,如存在多管理域和站点自治,系统的动态性、异构性和通信延迟
信息时代为我们带来了海量数据,如何帮助人们有效地收集和选择感兴趣的信息,并且在日益增多的信息中发现潜在有用的知识已经成为信息技术领域的热点问题。面对这样的挑战,数
随着互联网的发展,网页的数目呈现井喷状增加,也预示着大数据时代的到来。杂乱、大量的网页文本,增加了人们对信息的查找与过滤的难度。为了方便对网页文本的检索与挖掘,对网
随着国家越来越重视金属矿山的安全生产工作以及现代管理金属矿石的需求,井下人员定位和金属矿山安全监测系统越来越体现出其重要性,它们在金属矿安全生产方面具有举足轻重的
自动人脸识别由于其在诸如访问控制、人机交互等领域的巨大应用前景而成为了研究的热点。成功的人脸识别系统的一个很重要的准则就是:其对诸如光照条件、面部表情、姿态、尺
iOS,即苹果公司开发的移动操作系统,主要应用于iPhone手机、iPad平板等。现在越来越多的人在iOS平台上聊天、上网、观看视频等等,iPhone已成为很多人的随身必备物品。人脸与
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍应用所提出的迫切需要解决的重要课题。
数据发布为数据交换和数据共享提供了便利,数据发布过程中的隐私泄漏问题也日益突出,隐私保护己成为数据库安全研究的一个新热点。K-匿名化是微数据发布环境下保护数据隐私的一
近年来,数字水印技术得到了飞快的发展,目前抗几何攻击成为水印研究的热点和难点问题,据此本文以静态图像为研究对象,提出了两种抵抗几何攻击的数字水印算法。此外,本文还提