哈萨克语基本动词短语自动识别研究

被引量 : 0次 | 上传用户:D159357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈萨克语自然语言信息处理技术在文字处理、词法分析、文本校对等阶段均取得了一定的成果,目前可以考虑句子的处理阶段,即如何自动分析短语结构、短语定界、短语内部句法关系、结构成分之间的语义关系的不同等。面对如此丰富的网上信息,越来越多的人们需要对自然语言进行深入分析,例如机器翻译、搜索引擎、文本分类、信息提取等方面。本研究首先明确提出了哈萨克语基本动词短语的定义、性质、分类、结构,并且确立了哈萨克语基本动词短语的句法功能分类框架,初步描述现代哈萨克语短语结构所需要的句法体系和比较完整短语功能分类体系。其二,对哈萨克语基本动词短语的结构进行了统计与分析;接着确定哈萨克语基本动词短语的定界确定规则,最终识别哈萨克语基本动词短语。基于规则的方法中存在一些没有被考虑到的规则,而且基本动词短语跟其他短语之间存在一些歧义,所以得到的准确率并不高。其三,使用基于最大熵的方法对哈萨克语基本动词短语识别,其利用哈萨克语的单词、词性、词缀等上下文信息来设计最大熵模型的特征模板,通过GIS算法来对特征集合进行参数估计,最终输出最优的动词短语识别结果。基于统计的方法在在封闭测试环境下可以得到较高的准确率,在开放测试环境下却无法得到很好的结果,这种方法要求的训练语料库规模较大。其四,细致分析了哈萨克语基本动词短语结构歧义类型与消除策略分析,对哈萨克语基本动词短语结构中无歧义格式使用规则的方法识别方法基础上,针对一些典型的歧义格式使用统计的方法。本系统对实验室现有的“新疆日报”语料中抽取30天语料(规模为20MB)中进行哈萨克语基本动词短语(KzBaseVP)识别。从实验结果可以得出:以上三种方法对哈萨克语基本动词短语识别是可行的,并且基本动词短语搭配规则和特征模板的选择是正确,在封闭和开发测试条件下可以得到令人满意的效果。
其他文献
通过对改革开放三十周年以来我国可行性研究的引入、发展与改革过程中重要文献、理论观点的梳理和归纳,揭示了我国技术经济分析工作的发展历程。经过30年的努力,可行性研究部
目前中医药术语英译的研究与实践都有了长足的进展,但仍未形成统一的规范。中医方剂名称英译亦有许多不规范之处,本文拟就这一问题进行一些探讨。
老龄化是21世纪人类面临的一场严峻挑战,必将对全球经济和社会的发展产生重大影响。当发达国家已经进入人口老龄化考验期时,我国也正在加速迈进人口老龄化社会。养老保障逐渐成
通过调查香樟、观光木、深山含笑、天竺桂、红豆树5种珍贵树8a生林分,结果表明,5种树种的保存率相差不大,为92.7-95.3%,但树高、胸径差异显著,观光木树高、胸径最大,分别为8.
目的:测定衰老标记蛋白-30(SMP-30)在人体眼部各种组织中的表达量及定位,探讨其表达的意义。方法:从角膜移植供体眼中取各种眼组织及斜视手术去除的眼外肌为实验组,共5例角膜、
随着和谐社会主义理念在我国深入人心,非诉纠纷解决机制得到快速的发展。作为非诉纠纷解决机制的组成部分,行政调解因其救济的灵活性、专业性等特点,越来越受到各民事纠纷当
地下地质体三维结构、构造形态的正确认识是我们认识地质与成矿过程、指导找矿实践的重要基础,而矿集区三维地质-地球物理建模技术为了解一定深度(3km-5km)地下精细结构以及
随着世界能源的日趋匮乏和科学技术的飞速发展,加之人们对环境保护的要求,风力发电行业在全球取得了飞速发展。目前,中国风力发电装机容量已经超过美国成为全球风力发电装机
非理性主义源于对近代理性主义文化的反叛 ,它是西方现代文化的重要标志之一。现代非理性主义首先将人看做非理性的实体 ,同时强调非理性方法的重要性 ,贬低、限制理性的作用