融合知识源的语言模型研究

来源 :中国中文信息学会中文信息处理技术研讨会 | 被引量 : 0次 | 上传用户:talltiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前语言模型所面临的任务是解决句子中词间长距离依存关系和句子意义的理解问题.本文首先讨论了N元文法模型的缺陷,然后研究分析了各种融合知识源的语言模型及其各自的优缺点,强调了考虑长距离语法信息的结构语言模型和长距离语义信息的潜在语义分析模型,并阐述了用于克服语言模型数据稀疏的光滑算法和词聚类算法.
其他文献
作者从1986年进入中文信息处理领域,90年前后进行了图像识别、手写识别、印刷汉字识别、语音识别、键盘输入、词法分析等方面的研究开发.本文主要介绍专利94117506.5的理论基础,供专家参考指导.林码汉字输入方法是通过对纸、键盘、汉字等事物的结构和属性进行深入全面的类比研究,提出的针对汉字键盘输入和联机手写输入的发明.发明把纸上的字格应用到键盘和手写输入板上,对输入设备的人工操作区域进行划分,与
本文阐述了汉字编码输入软件发展历程和简要介绍了智能汉字输入平台生成系统的七种技术和十项功能.尤其对词的歧义处理具有一定的特色.
本文列出了汉字键盘输入系统设计者应遵循的与汉字有关的五个国家标准和三个语委规范,并指出了这些标准和规范内容要点.
识字教学是小学低年级语文教学的重要内容,使之与信息技术整合,提高效益,既弘扬汉字文化又达到初步掌握输入技能已经成为共识,关键在于筛选出促进而不是干扰识字教学的汉字编码,引导学生使用.汉字及汉字学习有几大特点:"音形意"三位一体、意为核心;部件表意,构字率高;独体字按笔画记,合体字按部件记;先学独体字再学合体字;讲究笔画和笔顺.使用有利于识字、正音正字的编码,可以把识字、打字、查字、写字结合起来,实
汉字是由汉字部件组成的,汉字编码就是给汉字部件编码.汉字的基本笔画有二种:单笔画和连笔.单笔画就是横、竖、撇、捺,连笔画是由单笔画首尾相接而成.如果我们规定:横和竖相交而成的为直角交点,撇与捺同其它任何笔画相交的交点为斜角交点,那么,根据汉字部件上某一笔画上的交点状况(指直角和斜角交点的数目)以及这个笔画的否有连笔,就可以给一个汉字部件进行编码.无交点部件则按一定的优先顺序取一个单笔画为这个部件的
一国之文化.是国民生活经验和智慧之累积,其载体主要为文字,所以文化和文字,两者相互依存,谁也少不了谁.中国的汉字,承载着中国的文化,更蕴含着中华民族的智慧.象形和形声,是其中的特色和精华,没有象形和形声的特色,汉字的优点便荡然无存,中国的文化将随之动摇.电脑的出现,为信息传播技术开创了崭新的模式,创造了空前的效率.而信息的载体,仍必须以文字为主.所以文字处理技术(即汉字输入)是信息处理技术的重要组
本文简要地论述了目前基于理解、基于语用统计、基于模板匹配、基于上下文关联的四种类型汉字键盘输入智能处理软件的原理、优点和存在的问题.
汉字自有检字需求起到如今编码方案的层出不穷,历来被认为不具备建立定性定量的序性形素字母的条件,这样,汉字便缺少了一种用定性定量的序性形素字母语言进行应用表述的方式.由于这一问题长期以来不能得到有效解决,人们往往只能从能用的角度去寻求方案的解决.因无法对所要表达的汉字要素用定性定量的语言进行表述及同类方案排它性差,结果导致方案数的大量产生及好坏不能识别.这样,寻找并揭示汉字定性定量的序性形素字母便成
汉码的根本问题是如何使汉字的输入像拼音文字那样简便的问题,解决这一问题必须使汉码达到四个目标,即易学、易用、规范、通用.目前流行的汉码没有一个同时达到以上目标.这是由汉字的缺陷造成的.汉字的缺陷即语音不发达及字型庞杂,语音不发达使得用声输入汉字重码率高得惊人,无法做到易用:字型庞杂使得汉字用形输入必须硬性设置字根,无法做到易学和规范.本文介绍的形化声编码方案,以声取形,使汉字的声形得到了有机的统一
本文介绍了一种能为千百万人所使用的全民普及型汉字编码——逻辑二笔码.描述了它在学习和使用效率上的明显优势以及功能上的突破,提出了字、词处理到句处理的终极目标与方向,阐明了逻辑二笔"取码最简单、笔画最科学、学习记忆量最小"的设计思想与原则.