论文部分内容阅读
众所周知,各种自然语言文本的处理都是以词为基础的,因为词是最小的表示独立语义的语言单位。可是,汉语文本被表示为连续的汉字串,词与词之间没有明确的分隔标记。显而易见,自动识别词边界,即将汉字串切分为正确的词串的分词问题,就成为了实现中文信息处理的各项任务中的首要问题。长期以来,分词问题也严重地阻碍了中文信息处理的发展。
从20世纪80年代提出自动分词以来,很多专家学者为之付出了不懈的努力,开发了很多具有实用性的研究成果。但这些已有的分词系统都是对已经存在的静态文本进行分词,面对文本信息的海量递增,对静态文本进行分词所付出的代价将无法承受。本文结合中文信息处理的发展趋势,提出了一种隐式分词连写的中文输入法,把目前中文信息处理不可逾越的一个阶段——分词,提前到文本输入的时候进行,这是以最低耗费和最高精度进行分词的最佳时期。用户进行汉语输入时,该输入法将输入的汉字串自动按照《中华人民共和国国家标准—信息处理用现代汉语分词规范》(GB/T 13715-92)转换成汉语词串的形式并进行保存;并在分词算法中引入了一种新的计算方法——黏结度,通过对动态信息,上下文信息进行分析,提高分词精度,减少开销。采用这种输入方法,就可以把长期以来中文文本在计算机内的表达形式由字串的形式转换为词串的形式,它将促使中文信息处理中的思想和做法从一贯以字为处理对象转变为以词为处理对象,并将促进各种中文信息处理的发展。如果这种输入法得以推广,它将引起的不仅是中文文本的机内表达形式的改变,甚至是整个中文文本表达形式的一场革命。
本文中我们着重论述了这项工作的意义、它所涉及到的思想、设计方法以及实现过程;给出了其中主要的模块,算法,以及与用户交互的界面。