哈萨克语基本动词短语自动识别研究

被引量 : 0次 | 上传用户：D159357

【摘要】

：

哈萨克语自然语言信息处理技术在文字处理、词法分析、文本校对等阶段均取得了一定的成果，目前可以考虑句子的处理阶段,即如何自动分析短语结构、短语定界、短语内部句法关系

【作者】

：

古丽扎达·海沙

【发表日期】

：

2013年期

【关键词】

：

哈萨克语基本动词短语短语分析歧义最大熵规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

哈萨克语自然语言信息处理技术在文字处理、词法分析、文本校对等阶段均取得了一定的成果，目前可以考虑句子的处理阶段,即如何自动分析短语结构、短语定界、短语内部句法关系、结构成分之间的语义关系的不同等。面对如此丰富的网上信息,越来越多的人们需要对自然语言进行深入分析,例如机器翻译、搜索引擎、文本分类、信息提取等方面。本研究首先明确提出了哈萨克语基本动词短语的定义、性质、分类、结构，并且确立了哈萨克语基本动词短语的句法功能分类框架，初步描述现代哈萨克语短语结构所需要的句法体系和比较完整短语功能分类体系。其二，对哈萨克语基本动词短语的结构进行了统计与分析；接着确定哈萨克语基本动词短语的定界确定规则，最终识别哈萨克语基本动词短语。基于规则的方法中存在一些没有被考虑到的规则，而且基本动词短语跟其他短语之间存在一些歧义，所以得到的准确率并不高。其三，使用基于最大熵的方法对哈萨克语基本动词短语识别，其利用哈萨克语的单词、词性、词缀等上下文信息来设计最大熵模型的特征模板，通过GIS算法来对特征集合进行参数估计，最终输出最优的动词短语识别结果。基于统计的方法在在封闭测试环境下可以得到较高的准确率，在开放测试环境下却无法得到很好的结果，这种方法要求的训练语料库规模较大。其四，细致分析了哈萨克语基本动词短语结构歧义类型与消除策略分析，对哈萨克语基本动词短语结构中无歧义格式使用规则的方法识别方法基础上，针对一些典型的歧义格式使用统计的方法。本系统对实验室现有的“新疆日报”语料中抽取30天语料（规模为20MB）中进行哈萨克语基本动词短语（KzBaseVP）识别。从实验结果可以得出：以上三种方法对哈萨克语基本动词短语识别是可行的，并且基本动词短语搭配规则和特征模板的选择是正确，在封闭和开发测试条件下可以得到令人满意的效果。

其他文献

我国可行性研究的引入与发展

通过对改革开放三十周年以来我国可行性研究的引入、发展与改革过程中重要文献、理论观点的梳理和归纳,揭示了我国技术经济分析工作的发展历程。经过30年的努力,可行性研究部

期刊

可行性研究技术经济分析回顾评述

葛根白芷粉治疗软组织慢性溃疡168例

期刊

白芷粉慢性溃疡溃疡创面

浅谈中医英译中方剂名称的翻译

目前中医药术语英译的研究与实践都有了长足的进展,但仍未形成统一的规范。中医方剂名称英译亦有许多不规范之处,本文拟就这一问题进行一些探讨。

期刊

中医方剂名称英译

新疆公共部门老年人力资源开发对策研究

老龄化是21世纪人类面临的一场严峻挑战，必将对全球经济和社会的发展产生重大影响。当发达国家已经进入人口老龄化考验期时，我国也正在加速迈进人口老龄化社会。养老保障逐渐成

学位

新疆地区人口老龄化公共部门老年人力资源开发

5种珍贵树种造林生长效果分析

通过调查香樟、观光木、深山含笑、天竺桂、红豆树5种珍贵树8a生林分,结果表明,5种树种的保存率相差不大,为92.7-95.3%,但树高、胸径差异显著,观光木树高、胸径最大,分别为8.

期刊

珍贵树种造林效果

衰老标记蛋白-30在人体眼部组织中的表达及意义

目的：测定衰老标记蛋白-30(SMP-30)在人体眼部各种组织中的表达量及定位,探讨其表达的意义。方法：从角膜移植供体眼中取各种眼组织及斜视手术去除的眼外肌为实验组,共5例角膜、

学位

衰老标记蛋白-30眼蛋白印迹法免疫组化法

域外行政调解制度对我国的启示

随着和谐社会主义理念在我国深入人心,非诉纠纷解决机制得到快速的发展。作为非诉纠纷解决机制的组成部分,行政调解因其救济的灵活性、专业性等特点,越来越受到各民事纠纷当

学位

行政调解非诉纠纷解决机制域外行政调解制度行政调解专员

庐枞矿集区三维地质地球物理建模技术研究

地下地质体三维结构、构造形态的正确认识是我们认识地质与成矿过程、指导找矿实践的重要基础,而矿集区三维地质-地球物理建模技术为了解一定深度(3km-5km)地下精细结构以及

学位

庐枞矿集区地质地球物理模型深部找矿反演拟合反射地震

风力发电风机设备供应商项目管理研究

随着世界能源的日趋匮乏和科学技术的飞速发展,加之人们对环境保护的要求,风力发电行业在全球取得了飞速发展。目前,中国风力发电装机容量已经超过美国成为全球风力发电装机

学位

风力发电项目管理组织管理时间管理成本管理风险管理

现代非理性主义的本质及其主要形态

非理性主义源于对近代理性主义文化的反叛 ,它是西方现代文化的重要标志之一。现代非理性主义首先将人看做非理性的实体 ,同时强调非理性方法的重要性 ,贬低、限制理性的作用

期刊

理性主义非理性主义现代非理性主义

哈萨克语基本动词短语自动识别研究

与本文相关的学术论文