现代维吾尔语常用词计量研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:xurikeji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代维吾尔语常用词计量研究是少数民族语言信息处理领域急需研究的重要课题。维吾尔语常用词汇表的欠缺,是影响维吾尔语词汇学、计算语言学和维吾尔语信息处理工作质量的重要因素,迫切需要研制具有代表性、可靠性、权威性的维吾尔语常用词汇表,促进维、哈、柯等阿尔泰语系的新疆少数民族自然语言理解跨越式发展。  本文在国家自然科学基金资助项目(项目编号:61063036)和国家语委项目(项目编号:YB125-45)等项目的支持下,对现代维吾尔语常用词计量研究的基本理论、基本方法和关键技术进行了研究,构建了现代维吾尔语语料库,生成了各种语料处理应用系统,研制出现代维吾尔语常用词候选表。  为确保收集语料的可靠性、代表性和权威性,本文重点对语料来源、语料范围、语料载体等进行了研究,以保证常用词候选表的权威性和代表性。  本文研究了构建现代维吾尔语言语料库的关键技术与方法,特别是现代维吾尔语言语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表,从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。  本文主要的创新点为以下两点:  (1)在现有的语料库资源基础上,系统、持续地进行收集、整理、加工和处理现代维吾尔文平面媒体、教育教材媒体、有声媒体、网络媒体语料,构建现代维吾尔语语料库,相比之前的语料库,本语料库语料来源更广、语料领域更宽、各个领域比率控制适当。对构建现代维吾尔语言语料库的关键技术与方法进行进一步优化与完善,新增了人名识别和数据自动分析技术。  (2)对词语使用频次及其词汇文本数进行基本考察,从词语的使用频度和词语在文本中出现的次数两方面加以考虑,提出了现代维吾尔语常用词候选表。  本研究不但为维、哈、柯等阿尔泰语系的少数民族自然语言理解及处理工作提供了基础,也可为阿尔泰语系的少数民族语言的规范化、教材设计、中小学语文教育、扫盲教育、双语教育和辞书编纂提供服务。
其他文献
唐晋是山西当代诗人中最具代表性的一位,著名诗人曹英人用“奇迹”二字形容他的诗歌,著名评论家汉光也认为唐晋诗歌是“一座难以逾越的高峰”。他们称赞唐晋诗歌的语言华美、意
20世纪60年代以来的生态危机催生了生态思潮的发展,这股思潮几乎波及所有人文社会科学领域,生态文学便是这股思潮中极其重要的一个支流。20世纪70年代以来,伴随着世界范围的生态