中文语料库分词不一致现象的分层校验

来源 :山西大学 | 被引量 : 3次 | 上传用户:zhangsao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。本文针对大规模语料库分词一致性存在的问题,通过研究山大和微软语料库中所出现的不一致字段,提出分词不一致逐层解决的方法,先对语料使用规则的处理策略,然后针对规则处理的缺点使用统计模型进行校验。该方法通过研究语料库不一致字段及其上下文环境,应用规则和统计模型的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下:1.对400万熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型,确定论文的研究对象,将影响分词正确率的主要因素作为规则库建立的根据;2.研究利用规则和实例来解决分词一致性问题,提取出初始规则库及大量实例,并将获取的规则和实例应用于分词结果校对中。最后通过对规则库进行自学习来提高语料的分词质量;3.提出统计的方法,将提取出的不一致字段及其上下文信息使用向量空间模型表示,并使用相似度计算等方法获得不一致字串的概率分布,在计算相似度时引入同义词词林。最后通过定量的方法对不一致字串进行分类。4.基于以上的思想和方法,分别对基于规则、基于统计以及将两种方法相结合的方法设计实验模型,对模型进行了实验后,详细分析了实验结果。在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种处理方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位分成一类,可以方便地对同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。在2007年SIGHAN评测中,山西大学提供的语料库在使用系统校对后,语料库的质量得到很大的提升,在评测中取得了很好的效果。对语料库切分一致性校验系统进行开放测试后,一致性检查的准确率为84.50%,召回率为70.39%,可见采用该系统后能够确实提高语料库的质量。
其他文献
数据挖掘是近年来迅速发展的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息