面向信息处理的蒙古语词缀统计及语法功能研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:yizhutingyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文运用了语料库语言学方法和统计方法对蒙古语的词缀进行了系统的语法功能及统计研究,从而分析蒙古语构词词缀在词中位置、语法功能、表现规律,将蒙古语词缀成分的研究从面向人的研究转化为面向人和机器所需要的研究。首先,论文以《新蒙汉词典》里的七万余词条为主要语料库,《蒙古语正音正字词典》为辅助语料库的基础上完成。其中,用《蒙古语正音正字词典》来对《新蒙汉词典》进行了优化工作,最终取了55098个单词对其进行了录入,切分、标注、归类等一系列细化工作。其后,统计并分析所切分和标注的词缀,以构成名词、形容词、动词、副词、数量词、摹拟词的主要词缀(不包括词缀变体)共177条,再归纳其功能并找出常用性词缀和应用功能逐渐弱化的词缀。通过统计数据,以类的方式聚合词干和词缀的组合情况,反映词干和词缀的组合能力,最终归纳词干和词缀搭配规律及词缀和词缀间的缀加规律。根据统计和分析,本研究主要得到以下结论:1.蒙古语派生名词、形容词、动词等词类的词缀,无论是从数量、结构还是变体形式方面都比较丰富。这三类词的词缀形式丰富多样而决定了新生词的不断派生,逐渐将此三类词得到不断地发展壮大。2.蒙古语词缀的结构中,复合词缀相对占多数,它们由不同的词缀结合而成,并且在变体形式方面复合词缀的体现更为明显。3.蒙古语的构词词缀非常丰富,它包括构成静词类的词缀和构成动词的词缀两大类,其中构成静词类的词缀占大多数。4.蒙古语构词词缀组合特点有:(1)不仅不同词类的构词词缀可以叠加,相同词类的构词词缀也可以叠加。(2)其中相同词类的具有不同语义成分的构词词缀才可以相互叠加。(3)具有相同或相近语义成分,而且出于排斥分布的一类构词词缀为亲族词缀。5.蒙古语中有一部分构词词缀有同形现象,如派生名词词-qi/-tu/-tai/-1/-n/-s等也出现于派生形容词、动词、副词的词缀当中。这些词缀虽同形,有的甚至是同音,但在各个词类中的派生功能是不一样的。6.词缀变体方面,像-enggi/-gar/-gul/-gal等含有-g音节的词缀多有变体现象。7.蒙古语构形词缀共有104条,这些构形词缀的组合特点主要有:(1)按词性(阴阳性)区别缀加,使用;(2)有连写和分开写的书写区别;(3)用于元音和软半音字母结尾的词后;(4)用于硬半音字母结尾的词后。(5)用于-n/-u/-i以外的半音字母结尾的词后。本文研究仅抽取了单个共现搭配词汇,未能从句法语义及整个语境着手研究其搭配组合。虽从多个角度全方位地对蒙古语词缀进行了分析和研究,但未能达到直接应用于信息处理层面,这需要在今后的研究中有待进一步深化和完善。
其他文献
《人民日报社论全集》于2013年12月18日发布,收录了《人民日报》自1948年6月15日创刊至2012年12月31日的7208篇社论文章。全书从党报评论的角度展示新中国各个时期的风貌,见
配偶权制度从其产生的过程来分析,它不是法律所创设的一种权利制度,而是在人类社会世世代代无数婚姻家庭生活中自生自发的一种习惯秩序,是人们共知、共信、共行的结果。千百
本文参照国内外几位学者提出的史诗类型划分标准,并根据哈萨克族史诗母题的组成方式,将其分为简单型、复合型和多重复合型三种类型。简单型在历史和宗教史诗中比较多,复合型
随着社会经济的不断发展,人们生活质量的提高,人们对建筑工程的要求也越来越高。现在人们的环保意识不断提高,加大了对建筑工程环保性能的重视,在此背景下,建筑幕墙得到的广
控制和分析高校在规模扩张中的财务风险,是中国高校为了保证其持续、健康、快速发展的重要课题,本文主要分析了其含义特征以及成因,并就其解决办法进行了探讨。
工作感悟$$闵行如果仅就“三农”发展去实现乡村振兴,是不够的,这是由闵行的自然本底和区位发展决定的。闵行的“三农”工作体量不大,农产品不再以保障需求为主,而是需要在标准化
报纸
随着国家电信体制改革和我国电信市场的发展,中国电信市场由卖方市场转向买方市场,电信竞争变得异常激烈,竞争层次越来越高。然而价格战、广告战、渠道争夺等均未能使电信行
比较句是一种常用句式,也是现代汉语中最基本的句式之一。从《马氏文通》开始,几乎每一本语法书、汉语教材都会对其进行研究或编写。但以往对比较句研究大都停留在本体研究上
在“中国文化热”、“汉语热”的影响下,学习中国语言和文化的外国人与日俱增。为了能更好地进行对外汉语教学和文化传播,满足留学生学习中国语言文化的需要,要求有新的教学
在对外汉语教学中,歧义句式在整个语法讲解中的地位比较重要。它在课本中的位置多处在平时提到的“把”字句、“被”字句课后习题或者注解中,但是在平时的写作、交流中经常出