关于蒙古语语音及语料库的建设

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:joinrootcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音语料是人类非常重要的语言资源之一。目前世界范围内已有很多国家建立了语音语料库,并采用高新技术手段进行相关研究,取得了众多的成果。蒙古族是世界民族的重要组成部分,有自己的语言文字,在人类历史上留下灿烂的一页,是人类文明的重要组成部分。我国政府非常重视少数民族语言文字资源的建设,在国家高技术研究发展计划863课题《多语言基础资源库研制和共享》中安排了蒙古语、藏语、维吾尔语语音库、语料库的建立计划。根据计划,我们建立了相关的蒙古语语音库、语料库。本文主要论述蒙古语语音库、语料库建设过程中的相关技术、选文等有关内容。
其他文献
日本和中国同属亚洲国家,自古以来又有各个方面的往来和交流,但在语言系统方面,日语和汉语却存在着很大的不同。汉语属于汉藏语系,日语的来源目前虽然还没有定论,但在语音体系、语法结构上跟汉语有很大的区别。本文以表示“鞋”义的词为例,分析日双同形异义词的历史演变,阐述日汉之间词义的差异,浅谈了日语和汉语里面词义的发展演变过程以及造成词义差异的原因。
本文以县市为方言点,调查描写了河北方言中与普通话“呢”相对应成分的语音形式:一部分县市读[1-]声母;一部分县市读[n-]声母;一部分县市[i-]、[n-]声母自由变读,还有一部分县市有的句类中读[1-]声母,有的句类中读[n-]声母。分四类描写了“呢”在河北方言中的分布状况,揭示了其在分布方面与普通话的不同。以上述的描写分析为基础,简单讨论了金元系白话“渐次南伸”的问题。
《官话问答便语》编于1703年至1705年,现存的两种手抄本,一本藏于日本天理大学图书馆,一本藏于日本法政大学冲绳文化研究所。本文介绍分析《官话问答便语》的内容。指出该书所说的“官话”主要是汉语北方话,但是也可以看到一些和北方话有差异的带闽方言色彩的词汇和语法现象。
文章对不同历史时期汉语语料中的“V法”及其相关结构进行了分析考察,论述了“V法”、“VP之法”及“VP法”从古代偏正式句法结构到现代汉语词项“V法”的历时演变过程,认为“V法”结构大致经过了双实语素结构、动词重心结构及无重心特殊结构等三个发展阶段,这一演变过程既是“V”与“法”融为凝固结构的词汇化过程,又是“法”从实义词到虚化语素的语法化过程,最初的词汇化为“法”的语法化提供了基础,而“法”的语法
本文着重介绍了万光泰《经韵谐声》的著述体例和研究方法等相关内容,总结了万光泰将文字学与音韵学相互融合的研究方法。介绍了万光泰在古音分部研究上的一些重要发明,从而揭示了清代古音学史上一个鲜为人知的历史事实,有助于我们对传统古音学理论和研究方法的重新认识。
依据旧有字书的训释进行同义换训称做“转训”,转训是古今字书普遍运用的一种训释方法。本文在列举《汉语大字典》、《中华字海》两部大型字书存在的各种转训问题的基础上,指出大型字书的编纂与修订在使用转训时应当格外慎重,以免造成错误训释或以讹传讹。
在信息网络化时代,哈萨克文信息处理技术也应跟上中国其他民族语言文字信息处理发展的步伐,为尽早实现完整的中文信息处理平台尽力尽责。
藏文语料的编码转写在藏文信息处理中必不可少。本文建立了一种基于藏文国际标准字符集的编码转写系统,包括传统藏文的拉丁转写和拉丁转写还原成传统藏文两个部分。文中分析了藏文拉丁转写和拉丁转写还原成传统藏文两个过程中出现的歧义问题,提出了解决方案,给出了转写流程图,最终实现了藏文语料编码转写系统。测试结果表明藏文语料编码转写系统达到了转写要求。
本文介绍了国内外主要藏文系统的编码方案,并根据三种不同类型的编码结构,对非标准藏文编码到国家标准(GB18030)的转换,国家标准和国际标准(ISO/IEC10646)之间的相互转换进行了详细阐述,并在vista平台下实现了转码程序,为藏语信息交换处理提供方便宜用的工具,为藏文信息的进一步研究奠定了基础。
西双版纳新傣文的字符和标点符号依据其文字真实使用状况,还需要进一步规范。首先新傣仂文字符设计时应该遵循顶线原则,其次字符的具体形状应该正确,再次标点符号应该与汉字的一致。另外根据新傣仂文与国际音标的对应关系,再进一步设计字符的键盘布局。