论文部分内容阅读
现有的中文信息处理系统都采用字库,基于字库的中文处理平台虽然为我国的中文信息化做出了不可磨灭的贡献,但由于其不是造字而是选字的特点而带有许多不足:不能建立长期稳定的信息化标准、不能很好地传承汉字文化、不符合汉字认知机理、与汉字教育脱节、信息熵高等。本文在对汉字的认知机理进行分析研究的基础上,将汉字文化和认知科学的成果相结合,对汉字智能造字的基础——汉字基元进行了深入的研究和探讨。主要研究内容和研究结果如下:(1)在对汉字字库相关中文信息处理流程进行深入分析和述评的基础上,在认知心理学原型理论的指导下,深入研究了人对汉字的认知机理,并将这种认知机理应用于计算机,在计算机进行汉字智能造字的实现原理方面进行了理论分析和实验研究。(2)本文着重研究作为造字基石的汉字基元。深入分析了与汉字基元相关的研究,得出汉字部首和汉字部件可作为汉字基元的主要来源但不能直接采用的结论。在此基础上,兼顾传承文化、方便使用和方便计算机处理的原则,提出了汉字基元的提取流程。(3)依据上述流程开展大量的实验研究,探索了以工程实验方法研究文化问题的途径。本文选取GB18030收录的27484个汉字作为实验样本集,以独体字和《辞海》的250个部首作为初始基元进行大量的实验研究,通过实验和分析,提取获得了877个汉字基元。(4)利用计算机技术设计开发了汉字基元计算机研究平台。研究平台对相关信息进行查询以便研究分析;对汉字基元进行字频统计,表明提取得到的汉字基元集符合汉字的认知规律且能够完全覆盖27484个汉字;对汉字基元字形信息的分类统计可为汉字基元映射知识提供前期研究的实验数据;对汉字编码的识别解析为智能造字的输入提供了可能的解决途径。