论文部分内容阅读
汉字输入法研究是自然语言处理的一个重要课题,自GB18030-2005颁布以来,许多研究人员一直在研究支持该超大字符集的输入法,而本课题的主要研究目的是实现处于CJK统一汉字扩充B区汉字的输入与显示。本文主要从输入法码表的制作和输入法程序的编写两方面来详细介绍输入法的制作。该输入法码表采用笔画顺序、笔画模糊匹配和部首+笔形码三种模式对四字节汉字进行编码,在具体使用时,笔画输入法只需要按照汉字的书写顺序输入对应的键盘码,就可以显示并输出目标汉字,笔画模糊匹配只需要输入汉字对应笔画的前四笔和后四笔,即可输出目标汉字,部首+笔形输入法只需按照笔形对应码将部首和汉字的编码通过键盘输入,便能输出对应的汉字。输入法的实现符合Windows的IMM/IME结构规范,是目前输入法广泛采用的编程方法之一。由于处于CJK统一汉字扩充B区的汉字主要出现在各种典籍文献中,因此基于CJK统一汉字扩充B输入法的实现,为许多用字量大的汉字辞书、古籍文献实现数字化起到了有利的推动作用。