基于词库与词法的分词不一致研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:fukuilover123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的正确切分是进行中文文本处理的必要条件。带标注语料库的出现弥补了分词规范和词表的很多不足,使得分词可以动态地进行。可是现阶段带标注语料库的标注质量不高,很多经过人工校对的语料还存在着大量的分词不一致现象,严重影响了分词的结果和后续的工作。如何解决语料里大量的分词不一致问题,是我们亟待思考的问题。 本文首先明确了什么是分词不一致的概念,将分词不一致产生的主要原因归结为人的心理词库的差异。并通过对1998年《人民日报》语料中的分词不一致进行统计,得出分词不一致字串主要集中在低频词,且随着使用频率的增加,从合度将逐渐趋近于1的结论。将分词不一致字段按照语义和语法结构加以分类,共分出3个大类,20个小类,提出将相同结构类型的词处理成相同的切分形式。 本文利用词库与词法知识,建立了规则库、组合型歧义库、固定词表和特殊单字词库,用来解决汉语分词语料库中相同结构类型的分词不一致。计算机利用这些知识较好地识别出了“大+动词(单字)”、“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。 本研究的意义在于将前人对于分词不一致的概念界定清楚,并利用统计知识详细地考察了它们的出现规律和分布情况。将本体的词库和词法概念引入,不仅合理地阐释了分词不一致产生的根源,而且从词法的半自由语素和构词模式中提取计算机可以识别的构词规则,将前人只是对具体分词不一致特例的解决扩大到具有普遍意义的按类处理,从而为最终解决分词不一致问题提供了可行的技术路线。
其他文献
做功课真累呀!让我休息一下,放松放松吧!rn我拿出平板电脑,打开《贪吃蛇》游戏玩了起来.刚开始,我是一条仅有三节的小蛇,在我周围出没的都是长达几十节的庞然大物,稍不留神我
期刊
快乐王国里有一位国王,他不是高大威猛的成年人,而是一个活泼可爱的小男孩.他长了一只猫耳朵和一只狗耳朵,眼珠子的颜色也不同,一只蓝一只绿,好玩极了!
期刊
《孟子》是儒家的基本文献之一,也是中国文化宝库中十分重要的典籍,具有很高的思想价值和艺术成就,在历史上曾经产生极为广泛的影响,直至今日依然为人们所珍视。自汉代开始,