现代维吾尔语虚词识别研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:Alkaid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和互联网的迅猛发展,人类已经迈入了信息化社会,无论是在维吾尔语还是在其他语言中处理何种类型的数据都离不开计算机的使用。维吾尔语研究已成为信息处理领域热门话题。随着计算技术的快速发展,从最早的文字处理研究慢慢转向了自然语言处理的各个层面中。在此研究过程中所有的信息处理和研究都在词层面上进行的。现代维吾尔语中词可以分为实词和虚词两大类。实词具有同时表示词汇语义和语法语义的功能。因此,独自充当句子成分;虚词只能表示语法语义,它没有表示词汇语义功能。因此,它依附于实词之后,专门表示相应的语法功能。维吾尔语中虚词主要包括后置词、连词、语气词和感叹词等四种。维吾尔语中的同一个虚词,有时候可能扮演着既不同又特殊的角色,因而出现歧义性问题。歧义性的存在会大大降低维吾尔语虚词识别准确率,同时对句子的生成语义理解等方面产生负面影响。因此,消歧是维吾尔语虚词研究中的重要内容之一。论文的主要内容包括以下几个方面:1.本文对维吾尔语虚词自动识别研究过程中,主要对小学维吾尔文语文教教材中的所有的词和虚词进行详细而全面的研究。为了满足维吾尔语虚词信息化的需求,本文构建了较为完善的维吾尔语虚词电子语料库。2.从传统语言学角度来对维吾尔语虚词语法、语义结构进行分析,并构建了维吾尔语虚词识别规则库和虚词消歧规则库。根据计算语言学的理论技术和方法,设计并实现一个从文本中识别出维吾尔语虚词,并且能提供语法语义标注、语义解释等一系列信息的维吾尔语虚词自动识别系统。3.本系统在维吾尔语虚词识别过程中分成了四个子模块,各个模块包含着查询和统计功能,有效的减少从文本中识别维吾尔语虚词所需的时间,并且对以后的维吾尔语虚词研究领域中提供了一定的技术平台,在自然语言理解和处置中广泛运用,最重要的是弥补了虚词识别研究方面的空白。4.本文为提高虚词识别准确率,通过对小学维吾尔文语文不同五个年级的教材进行查询,最终识别出8539个虚词,识别准确率达到了83.50%。从而可知,本系统的实现文本分析中的舆情分析起着重要的作用,也为开展计算机理解与处理维吾尔语奠定了一个崭新的基础。
其他文献
针对城市网格化管理部件数据的质量控制特点,提出采用分阶抽样方法对单幅部件数据进行抽样,引用错误率、遗漏率、精度误差率作为部件数据质量的度量指标,推导了缺陷率的计算
新疆双语师资存在着数量短缺且增长缓慢、汉语水平低、教育教学技能低的事实,双语教师培训亟待加强。目前新疆双语教师培训模式单一且简单机械,培训理念不到位,缺乏专家指导
<正> 一、热量定义的种种说法 有人常用Q=mc(t-t0)来定义热量。其中m是质量,c是比热,t是末温。用该公式来定义热量学生比较容易接受,容易理解,但在逻辑上是混乱的,因为比热是用
本文概述福建农业企业上市地、上市方式、地区分布、行业分布、融资金额与龙头企业的关系,分析福建农业企业上市综合特征,并对如何做大做强福建农业上市公司板块提出建议。
<正>福州作为具有二千二百多年建城历史的文化名城,不仅历史文化底蕴深厚,而且"闽在海中"的特殊自然地理环境,造就了这座千年古城"城中有山、山在城中、城中有水、水绕城流"
本文是一篇关于外交学院2015年毕业典礼耳语同传的实践报告。本篇报告涵盖了此次实践的整个过程,包括前期准备、口译过程中遇到的困难、译文中的问题以及此次实践的收获。本
相量测量单元(phase measurement unit,PMU)优化配置问题的主要目标是找到使电力系统完全可观所需的最小PMU数目及其位置.针对此问题,提出了一种基于二进制粒子群优化算法(binar
当我们把一些空间关系投射到非空间概念时,就形成了空间隐喻。在汉维语中,空间方位词的运用是不同的,并且存在着很多差异。本文首先通过对比汉维空间隐喻概念词“上下”“前
《中庸直解》是元代许衡为方便少数民族学习汉文化而著的。作为流传下来的为数不多的“直解”语料,其口语程度比较高,是研究近代汉语的重要语料。但目前,学界从语言角度对其
施工成本控制是项目施工管理的重要内容,它贯穿于项目实施的全过程,是施工企业预期利润能否实现的关键因素。本文以建设工程项目施工成本管理的理论为基础,结合从事的园林景