隐式分词连写的中文输入法

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:liteary
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,各种自然语言文本的处理都是以词为基础的,因为词是最小的表示独立语义的语言单位。可是,汉语文本被表示为连续的汉字串,词与词之间没有明确的分隔标记。显而易见,自动识别词边界,即将汉字串切分为正确的词串的分词问题,就成为了实现中文信息处理的各项任务中的首要问题。长期以来,分词问题也严重地阻碍了中文信息处理的发展。 从20世纪80年代提出自动分词以来,很多专家学者为之付出了不懈的努力,开发了很多具有实用性的研究成果。但这些已有的分词系统都是对已经存在的静态文本进行分词,面对文本信息的海量递增,对静态文本进行分词所付出的代价将无法承受。本文结合中文信息处理的发展趋势,提出了一种隐式分词连写的中文输入法,把目前中文信息处理不可逾越的一个阶段——分词,提前到文本输入的时候进行,这是以最低耗费和最高精度进行分词的最佳时期。用户进行汉语输入时,该输入法将输入的汉字串自动按照《中华人民共和国国家标准—信息处理用现代汉语分词规范》(GB/T 13715-92)转换成汉语词串的形式并进行保存;并在分词算法中引入了一种新的计算方法——黏结度,通过对动态信息,上下文信息进行分析,提高分词精度,减少开销。采用这种输入方法,就可以把长期以来中文文本在计算机内的表达形式由字串的形式转换为词串的形式,它将促使中文信息处理中的思想和做法从一贯以字为处理对象转变为以词为处理对象,并将促进各种中文信息处理的发展。如果这种输入法得以推广,它将引起的不仅是中文文本的机内表达形式的改变,甚至是整个中文文本表达形式的一场革命。 本文中我们着重论述了这项工作的意义、它所涉及到的思想、设计方法以及实现过程;给出了其中主要的模块,算法,以及与用户交互的界面。
其他文献
  本文阐述MiroSot系列足球机器人视觉子系统的设计与研究。文中首先介绍了视觉子系统设计的原理,对图像处理技术中的彩色图像分割、视觉跟踪以及图像畸变校正等进行了方案
  本文针对启发式算法和标准遗传算法在求解该问题时各自的缺陷,结合二者的优点,将从实际排版经验得到的启发式信息引入标准遗传算法,建立了一种启发式混合遗传算法,将问题的解
软件质量和生产率是软件企业成功的两个关键因素,本文选取软件瞬时生产率作为研究对象,在企业内部进行度量方案的设计和实施,并使用数理统计的回归分析方法,对采集的数据进行分析
以软交换为核心的下一代网络(NGN)通过业务与呼叫控制分离以及呼叫控制与承载分离实现相对独立的业务体系,提供开放的API接口,支持不同带宽、实时的或非实时的各种媒体业务使用
  本系统主要包括使用描述逻辑推理机作为推理模块,使用数据库作为保存实例的存储空间,将不同技术结合实现基因实例的查询。  本文的原型系统使用FaCT和Racer[5]作为描述逻
网格(Grid)技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格的作用是将分散在网络上的信
大量研究表明:病原体感染、肿瘤发生发展、自身免疫性疾病的发生发展和组织器官移植排斥都与T细胞抗原识别和活化异常或偏离相关。T细胞表位(Tcellepitope)是指抗原经过抗原提
随着Internet的飞速发展,协同设计系统从局域网环境扩展到广域网的环境。并发控制机制是数据库事务管理中非常重要的一部分,其性能的优劣是衡量一个数据库系统功能强弱和性能
飞速发展的互联网(WWW)极大地改变了人们的生活, 它已经成为人们交流思想和获取信息的主流性的渠道。在这浩瀚无边的网络数据的海洋中潜藏着大量有价值的知识,从这个海量数据
在工业控制和自动化应用软件中,组态软件占有重要的地位;它是4C[10]技术(计算机技术,控制技术,通讯技术,微电子技术)的结合;随着计算机技术的发展,组态软件的设计方法也由传