汉字语法语义智能输入法搭配库设计与实现

来源 :河南大学 | 被引量 : 0次 | 上传用户:weipan51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理就是利用计算机对汉语信息进行自动处理。在中文信息处理中,解决汉字输入是一项基础而又重要的工作。虽然已经有不依靠键盘输入汉字的产品问世,但汉字键盘输入法还是最普及的方式,也是中文信息处理领域中一个很重要的课题。在已有的键盘输入法中,有以字、词为单位输入的,也有后来以短语和句子为单位来输入的,但是这些输入法在智能处理方面都不太理想。所以设计了汉字语法语义智能输入法,目的是通过应用汉语的词语搭配知识、语法和语义搭配知识来提高输入法的智能性。本文所做的研究就是设计汉字语法语义输入法所使用的这些词语搭配知识库、语法和语义搭配知识库。详细内容如下:1、设计并实现两词语搭配知识库。动态设定远、近距离搭配窗口,统计窗口内的候选搭配词语,然后根据改进的几个统计模型:近距离搭配强度、远距离搭配强度、近距离搭配离散度、远距离搭配离散度,各个位置上的尖峰值进行候选搭配词的初步筛选,最后根据一些语法语义知识进行进一步的筛选,得出的最终结果填写到本文的两词语搭配知识库中。2、设计并实现三词语搭配知识库。对两词语搭配库中的每一个词语搭配对作为一个关键词语对其重复两词语搭配库统计的过程步骤,得出的最终结果存入到本文的三词语搭配知识库中。3、设计并实现语法搭配知识库。短语以及句子内部都有一定的语法结构关系,先建立一系列的语法搭配规则模板,然后对《人民日报》语料库进行模板匹配,自动抽取出一系列的具体语法搭配实例,存入语法搭配知识库中。4、设计并实现语义搭配知识库。词语搭配对之间也存在一定的语义关系。首先借助《同义词词林》对语义知识进行编码,定义语义搭配的编码形式,采用这种编码方式对两词语搭配知识库中的节点词语实例指派合适的义类,然后给搭配实例中的搭配词指派合适的义类,最后对所有的义类搭配进行合并和统计,得到最终的语义搭配知识库。
其他文献
公平供应链是供应链的一个重要组成部分。随着社会的发展供应链越来越受到关注,许多学者都投入到公平供应链模型的研究中。本文主要研究带有缺货损失和回购契约报童模型中的
参数化斜Haar变换(PSHT)是近年来提出的一种新型的非正弦类正交变换,其将“斜”基向量的固定递减差值推广为可随参数变化的,对传统斜Haar变换作了重要的改进和发展。它打破了
无限维李代数及其表示对于李代数及其相关领域的研究起着重要作用。 作为微分算子李代数的普遍中心扩张,李代数D(物理学家称之为W)与二维量子场论和可积系统有重要联系。
2月28日,世博园区B片区首家央企总部基地——中国商用飞机总部基地正式奠基,标志着上海世博园区后续开发利用步伐加速推进。按照规划,世博会红线范围5.28平方公里将重点打造
在大多数实际问题中,由于存在客观的或人为的不确定性,这导致讨论的问题往往是不确定的,这类问题称为不确定优化问题,其中带区间系数的优化问题便是其中之一.双层规划是一类具有