论文部分内容阅读
词的正确切分是进行中文文本处理的必要条件。带标注语料库的出现弥补了分词规范和词表的很多不足,使得分词可以动态地进行。可是现阶段带标注语料库的标注质量不高,很多经过人工校对的语料还存在着大量的分词不一致现象,严重影响了分词的结果和后续的工作。如何解决语料里大量的分词不一致问题,是我们亟待思考的问题。
本文首先明确了什么是分词不一致的概念,将分词不一致产生的主要原因归结为人的心理词库的差异。并通过对1998年《人民日报》语料中的分词不一致进行统计,得出分词不一致字串主要集中在低频词,且随着使用频率的增加,从合度将逐渐趋近于1的结论。将分词不一致字段按照语义和语法结构加以分类,共分出3个大类,20个小类,提出将相同结构类型的词处理成相同的切分形式。
本文利用词库与词法知识,建立了规则库、组合型歧义库、固定词表和特殊单字词库,用来解决汉语分词语料库中相同结构类型的分词不一致。计算机利用这些知识较好地识别出了“大+动词(单字)”、“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。
本研究的意义在于将前人对于分词不一致的概念界定清楚,并利用统计知识详细地考察了它们的出现规律和分布情况。将本体的词库和词法概念引入,不仅合理地阐释了分词不一致产生的根源,而且从词法的半自由语素和构词模式中提取计算机可以识别的构词规则,将前人只是对具体分词不一致特例的解决扩大到具有普遍意义的按类处理,从而为最终解决分词不一致问题提供了可行的技术路线。