论文部分内容阅读
在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。 本文针对大规模语料库分词一致性存在的问题,首先分别采用基于规则和采用基于支持向量机的分词一致性检验方法来对测试语料进行分析,然后采用将两者相结合的方法来重新测试。该方法通过对语料库不一致字段应用规则和应用基于SVM的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下: 1.研究和分析大规模语料库分词不一致性现象及类型,并统计相应的比例,确定论文的研究对象; 2.给出语料库样本的结构化表示形式,用影响分词正确率的主要因素作为语料库样本向量的特征; 3.从人工校对的正确语料中获取分词范例,基于获取的范例统计得到所需实验数据,根据支持向量机的理论对语料进行自动校对,该方法可以较好的提高语料的分词质量; 4.研究利用规则来解决分词一致性问题,提取出若干条规则,并将获取的规则应用于对语料的分词结果的校对,提高语料的分词质量,在校对过程中同时也对规则进行评价; 5.基于以上的思想和方法,分别对基于规则、基于支持向量机以及将两种方法相结合的方法设计实验模型,并分别对每个模型进行了封闭测试和开放测试。 对将两者相结合的语料库切分一致性校验系统进行开放测试后,一致