论文部分内容阅读
中文信息处理就是利用计算机对汉语信息进行自动处理。在中文信息处理中,解决汉字输入是一项基础而又重要的工作。虽然已经有不依靠键盘输入汉字的产品问世,但汉字键盘输入法还是最普及的方式,也是中文信息处理领域中一个很重要的课题。在已有的键盘输入法中,有以字、词为单位输入的,也有后来以短语和句子为单位来输入的,但是这些输入法在智能处理方面都不太理想。所以设计了汉字语法语义智能输入法,目的是通过应用汉语的词语搭配知识、语法和语义搭配知识来提高输入法的智能性。本文所做的研究就是设计汉字语法语义输入法所使用的这些词语搭配知识库、语法和语义搭配知识库。详细内容如下:1、设计并实现两词语搭配知识库。动态设定远、近距离搭配窗口,统计窗口内的候选搭配词语,然后根据改进的几个统计模型:近距离搭配强度、远距离搭配强度、近距离搭配离散度、远距离搭配离散度,各个位置上的尖峰值进行候选搭配词的初步筛选,最后根据一些语法语义知识进行进一步的筛选,得出的最终结果填写到本文的两词语搭配知识库中。2、设计并实现三词语搭配知识库。对两词语搭配库中的每一个词语搭配对作为一个关键词语对其重复两词语搭配库统计的过程步骤,得出的最终结果存入到本文的三词语搭配知识库中。3、设计并实现语法搭配知识库。短语以及句子内部都有一定的语法结构关系,先建立一系列的语法搭配规则模板,然后对《人民日报》语料库进行模板匹配,自动抽取出一系列的具体语法搭配实例,存入语法搭配知识库中。4、设计并实现语义搭配知识库。词语搭配对之间也存在一定的语义关系。首先借助《同义词词林》对语义知识进行编码,定义语义搭配的编码形式,采用这种编码方式对两词语搭配知识库中的节点词语实例指派合适的义类,然后给搭配实例中的搭配词指派合适的义类,最后对所有的义类搭配进行合并和统计,得到最终的语义搭配知识库。