初中藏文信息处理中自动分词方法研究

来源 :杂文月刊·教育世界 | 被引量 : 0次 | 上传用户:novass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  西藏自治区昌都市洛隆县初级中学
  【摘 要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。
  【关键词】信息处理 藏文分词 分词方法
  藏文分词是藏文信息处理中一项不可缺少的基础性工作。从文本的输入系统(如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系統的应用,它是藏文信息处理重要基础之一。众所周知,英文以词为单位,以空格隔开。计算机可以容易地理解英文单词。而藏文句子中,词与词之间没有明显的分隔符(如空格)。藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。进而提出了藏文自动分词的基础理论知识及分词技术方法。
  一、制定藏语词性标记集规范
  为了使藏文与汉文信息处理同步,建立统一的中文多文种信息处理平台,本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集,制定了藏语词性标记集规范。
  二、研究了藏文分词的单位与原则
  分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。
  1.分词既要符合语言学的一般规则,同时也要便于词类和句法分析,不能分得过细,也不能分得过粗。
  2.分词单位必须是在藏语言中出现的,而不是凭空臆造的任何字符串。
  该成果采用《信息处理用现代汉语分词规范》和《资讯处理用中文分词规范》两者之长,为藏文分词单位确立两条基本原则和诸多辅助原则。
  三、藏文自动分词研究
  (一)藏文分词方法
  1.格分析法:这是藏语语法理论体系中固有的语法规律,藏语有比较完善的形式逻辑格语法理论体系。格关系理论和方法可以分析藏文句子的语义逻辑关系;可以做格关系的逆过程,就是通过格助词与格关系来判断通过格切分后词汇的准确度。
  2.概念层次网络理论:HNC主要应用在藏文词汇概念的语义网络中,藏文词汇语义网络用手工+统计的方法创建,其核心是联想意义和上下位所属关系。
  3.二元属性描写方法。
  4.匹配方法:在藏文中将格分析之后的藏语短语作为匹配的对象。根据匹配单位的需求可分为最大匹配法和最小匹配,根据消歧需求可分为正向匹配和逆向匹配等。
  5.统计方法:主要应用在获取先验知识方面,例如,藏文大丁字符信息表、藏文音节(擦青)表,藏文各种语言单位的二元模型、藏文格助词的配价概率、藏文动词词表等。
  (二)分词系统模块
  藏文自动分词系统,在基于规则和统计的基础上,增加了联想回溯算法,引入了句法、语义信息。系统包含预处理模块、分割模块、匹配识词和规则识词4个模块。
  1.预处理模块:包括切分句子和语言分类两个部分。切分句子是将源藏文文本语料依据藏文分句形态标志信息(主要是藏文分句符号)分解成相对独立的藏文句子,这个过程要考虑英、藏、汉多语种混排文本,即切句要考虑多語言的句子边界信息。同时要保留原始文本的所有信息,保证文本的原貌不发生变化。语言分类是以句子为处理单位,把句子按不同的语言分割成若干不同的语块。在以后的处理过程中,根据不同的语言块进行处理。
  2.分割模块:以预处理后的藏文语块为对象识别藏文词。此模块分词边界特征识别和改进的算法。词边界特征识别是以特征词库中的词作为词切分标志,依靠联想规则将一个音节串语块分割成更小的语块,对每个特征词建立不同的规则来处理特征词的左右边界。改进的算法是依据分词词表将藏文语块识别成词,方法中正向和逆向合一进行,然后判断并确定歧义结构,将歧义结构交付排歧模块处理,以便修改错误的分词结果。该分词系统可以对藏文文本分词正确率已经达到了95%以上。
  (三)藏文分词测评
  1.开放性:易扩充性、可维护性和可移植性等特点。要求在开放环境下切分精度和处理速度稳定在实用的程度。
  2.通用性:藏文自动分词是高层藏语言信息处理的共同基础。分词系统应该支持不同的应用领域;支持不同学科领域的应用;支持不同地区的语言处理需要;要适应不同地区的语言风格。
  3.独立性:不同的应用系统对分词系统的要求不同,因此分词系统要有不同的版本,系统内部的各种信息资源,以及处理信息资源的各个模块要具有较高的独立性,方便装入系统或者从系统中卸载,提高系统处理精度和处理速度。
  该成果从藏文字的产生,藏文的文字、音节、结构、语法特征,讨论了藏语词类划分,词与其语言单位的区别,信息处理用藏语词类,藏语词性标记集,研究了藏文分词规范的设计,藏语分词的基本特征,使用范围,用途,参考标准、藏语分词用术语、藏语分词单位、藏语分词原则,这些工作在国内学术界相关研究较少。藏文自动分词是藏文自然语言理解的一项基础性工程,藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
其他文献
在新课改的教学过程中,我们遇到很多难题,但更多地是看到,新课改给课堂教学带来的有利方面,在具体的教学中仍然存在诸多问题,我们要不断创新采取全新的教学方法来解决:  一、新课标下小学数学教学的新变化  新课改已融入到学生的学习中,我们在实施过程中,遇到很多的难题,但更多地是看到新课改给课堂教学带来的新变化。新课程实施后,学校的教育教学工作发生了明显的变化,教师的教材观、学生观、教学观正在悄然发生变化
健康是社会发展和进步的标志之一,是社会质量的重要内容。现代护理学将健康教育定为以医院为基础,以病人及家属为对象,通过护理人员有计划,有目的教育过程,达到使病人了解增进健康的知识,改变他的健康行为和问题,使其行为向有力于健康的方向发展。病人在住院期间不单纯满足于传统的护理技术服务,同时希望护理人员为其传授自护知识和技能。这是新时期护理工作的职能转换及护理专业本身发展的要求。  一、满足病人需求是高质
【摘 要】目前我国的教育工作者都还坚守着‘课堂’这块主阵地。我们学校秉承‘关爱、合作、超越、创造’这八字校训,为“快乐课堂”打开了新局面。快乐课堂包含着自主、愉悦、高效、体验这些元素。  【关键词】快乐课堂 自主学习 英语与信息技术整合  我一直在小学英语教学一线工作,从三年级到六年级,都有经历,担任过四个同轨班,两个班的英语教学,在教学中有些收获我想好好梳理一下:首先来说一说词汇教学,Let’s