基于语料的哈萨克语词频统计的研究

来源 :第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 | 被引量 : 0次 | 上传用户:xujin2003cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词频统计在信息处理中发挥重要作用。哈萨克语作为新疆少数民族语言之一,词频统计作为自然语言处理的基础性课题成为需要迫切解决的问题,介绍了Zipf定律及哈萨克语词频统计之间的联系。首先将输入的连续哈萨克语字符串进行分词处理,输入分割后的哈萨克语词串,得到一个哈萨克语词典。词典中不重复的存储了每次处理中得到的哈语词组,以及这些词语出现的频率,并进行了哈萨克语的统计实验,实验结果说明了哈萨克语词频之间的内在联系,同时验证了哈萨克词频符合Zipf的幂律定律。
其他文献
交通工程行业是我国的支柱行业,对于很多地方的居民生产、生活条件改善,都会产生较大的影响,为了在日后的发展中取得更好的成绩,需要有效应用先进的技术手段,提高技术的可靠性、可
对于生产来说,设备是必不可少的硬件,它的优劣与否直接影响着生产的效果,可以说,它统领着整个生产过程,是贯穿于生产线上的脉搏,决定生产的正常运营。但是该设备并不是不坏之身,在恶
随着城市化进程的不断加快,使土木工程建筑随着建筑工程项目的增多也在不断的增加。在整个土木工程建筑中,混凝土材料占据着重要的地位,所以也受到了人们的广泛关注。因此,提高混
CFG桩即是水泥粉煤灰桩,它是由水泥、粉煤灰、碎石等混合料加水拌和而成的高粘结强度桩。通过在天然地基中设置一定比例的CFG桩体,并设置一定厚度的褥垫层,由桩、桩间土和褥垫层
本文首先在对目前自然语盲处理中计算机辅助翻译系统的思想和设计做了简要描述的基础上,提出了目前针对于汉藏双语的计算机辅助翻译系统中汉藏双语平行语料库的设计方案,以及
本文以汉、维、哈、柯等具有多种书写方向的多文种电子词典软件系统开发为背景,首先指出了其中与语种相关的词语书写方向识别,词语的文种识别,提出了相应的解决方案:通过XML
会议
本文首先对传统测量方法与RTK定位技术的优劣进行了分析,并提出了几条RTK在测量放线中的技术要点。
本文提出一种蒙古语连续多词单元(Consecutive Multi-WordUnits)的自动识别方法,用以辅助语言学工作者在蒙古语文本中对连续多词单元进行识别和标注。首先结合汉蒙词语对齐任
在工民建工程实际施工中,混凝土是这个过程必不可少的一种重要性的建筑材料,其质量的好坏将会直接关系到整个工民建的耐久性以及抗压力。工民建混凝土质量的高低将会直接影响到
本文以两种黏着语维吾尔语和蒙古语为研究对象,介绍了基于最大后验概率模型非监督式形态切分方法。该模型是以最小描述长度原理为基础,视形态丰富的语言为词素编码
会议