基于词素的哈萨克语语言模型及其单词切分中的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:skyisheaven1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本论文中研究了基于词素的哈萨克语语言模型,过往的研究中主要研究了以单词或音节为单位建立语料库形成模型,而本研究中哈萨克语的单词分解为词干和词缀后形成词素,通过得到的词素来建立语言模型,该模型哈萨克语的单词切分,拼写错误检测,语言模型优化等语言处理研究中起了重要的作用,本实验结果表明,该语言模型对哈萨克语单词切分成词干和词缀有明显的效果,切分准确率达到了80%。
  关键词:语言模型;词素;语料库;单词切分;哈萨克语
  中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)11-0189-03
  Morpheme based Kazakh Language Model and its Applications in Kazakh Word Segmentation
  Nurpolat Huan, Mijit Ablimit, Askar Hamdulla
  (Institute of Information Science and Engineering of Xinjiang University, Urumqi 830046, China)
  Abstract:This thesis studies the model of the kazak language based on morphemes, past research mainly studied with the word or syllable corpus formation model is established for the unit, and in this study the kazakh of morpheme is formed after words into stems and affixes, through the morphemes to establish the language model, the model of the kazakh word segmentation, spelling error detection, language model optimization plays an important role in the study of language processing, the experimental results show that the language model to the kazakh words cut into stems and affixes have obvious effect, segmentation accuracy reached 80%.
  Key words:language model; morpheme; corpus; word segmentation; kazakh
  1 概述
  目前的哈薩克语语言处理研究达到了一定的水准,哈萨克语属于黏着性语言,根据其特点和特性,哈萨克语的构词方式就是词干加词缀形成新的单词。每个词的组成结构和语法意义的表示都是依赖于不同词缀的连接,因此每个词缀都有着独立的语法意义和结构意义。每个词干连接不同的词缀,就会产生不同的新词,正确切分哈萨克语词干和词缀就需要一个完整的基于词素的语言模型。
  在哈萨克语语词干提取方面,古丽拉·阿东别克[1] 等在 2007 年提出了哈萨克语词干提取方法,在2008年[2] 采取双向全切分方法结合词法分析实现了词干的提取。2011年达吾勒[3] 提出了基于规则的哈萨克语词干提取方法。2012年江阿古丽·哈依达尔[4] 利用有限状态自动提取哈萨克语单词词干。但目前为止,哈萨克语词干提取研究都是以规则的方法为主,这方法缺少可移植性,无法移植到新的语料,因此本文根据哈萨克语黏着性特点和词干词缀的连关系,利用统计的方法对哈萨克语以词素来进行统计和分析,建立词素语言模型为主框架的哈萨克语单词切分方法。
  2 基于词素的哈萨克语语言模型
  2.1基于哈萨克语词素的概念
  我们哈萨克族等少数民族文字是粘连性的文字,不像汉字。哈萨克文字一个单词由好多字母排序来形成单词,构词和构形结构上词根,一个单词由词干后连不同的词缀来形成的,语法功能和结构功能。因此每个不同的词缀意味着不同的单词[5] 。由于哈萨克语有大量的词缀,则形成的单词就不同,根据哈萨克语形态学特征和拼写规则,因此对哈萨克语来说,大部分词缀连接在词干后称为后缀,少部分词缀连接在单词前面称为前缀[6] 。
  哈萨克语单词形成的结构:Prifix stem Suffix1 Suffix2 (前缀 词干 后缀)
  一般通过单词来建立语言模型,但应用价值和效率不高,因此通过morphem来建立的语言模型在单词切分,拼写错误检测,语言模型优化,语音识别等语言处理研究中起了重要作用。
  2.2词素语言模型概念
  单词分成若干个词素(前缀 词干 后缀),所谓的词素模型也就是说统计哈萨克语中尽所可能的所有词素统计,并计算每个词素在单词中出现的概率[7]。
  例如:oqetwxelar=oqet w xe lar
  oqetwxelar是一个单词 那么这个单词中出现了四个词素,一个词干,三个后缀,每个词素的出现位置,出现概率也不一样。那么我们通过ngram统计方式 统计一个语言中的所有词素并计算它的出现概率。因此我们需要建立基于词素的语言模型。
  3 基于词素的语言模型建立及其在单词切分中的应用
  3.1建模理论
  基于词素的语言模型是把词素作为建模基元,构建如图1所示,词干和词缀库根据哈萨克语语法规则和语言特性来建立的,而词干和词缀之间的规则和前后连接规律也是根据语法规则而得来的。   3.2 建模过程
  本研究中首先对哈萨克语进行研究,分析,获得语法规则及语法特点。其次准备语料库然后通过语料库获得哈萨克语的词素形式的训练语料库,最后利用n_gram统计方式对建立好的词素训练语料库进行建模[8] 。
  建模过程:
  1) 准备平行语料库(由单词形成的句子和把单词分成词素的句子一对一,对应的平行句子)和词缀表(affixes.file)。
  2) 通过平行语料和词缀表得到语料库中的全部词素(morpheme_ID.file)和由词素构成的预处理完的训练语料(train_corpus)。
  3) 把由词素构成的预处理完的训练语料(train_corpus)通过SRILM工具 N_gram统计得到词素N_gram模型。
  3.3 模型在单词切分的应用
  一般通过单词来建立语言模型,但应用价值和效率不高,因此通過morphem来建立的语言模型在单词切分中得到了很好的作用。
  本实验中的单词切分过程:
  1) 首先读入一个哈萨克语句子。
  2) 采用正向匹配和逆向匹配对句子中的每个单词进行切分并获得候选集词素。
  3) 对切分获得的候选集词素进行统计并计算,通过我们已建立好的词素语言模型来找出来每个切分的候选词素中概率最大的切分结果。
  4 实验结果及分析
  4.1实验数据
  本实验中平行语料库中使用了手动预处理后的一对一单词和词素对应的平行语料库中分别比较的两组对比实验中实验一:5000个句子,其中4500个训练句子500个测试句子。实验二:和10000平行句子,其中9000个训练句子和1000个测试句子。
  实验数据表1所示:
  本次对比试验中我们发现不同大小的料库中获得的词素数目也不一样,语料库越大获得的词素也越多,因此语料库越大就我们获得更多的哈萨克语的词素。
  4.2实验结果分析
  本实验过程中利用不同数目的语料库来建立的词素语言模型应用在单词切分的时候我们发现,对单词切分的准确率不一样。
  本次实验中的数据分析表2所示:
  本实验中我们可以看出通过哈萨克语的词素来建立的语言模型对单词切分的效率相当高,切分准确率达到了80%,其比以单词或音节为单位建立语料库形成模型对单词切分的效率高。而且词素语言模型的规模越大单词切分准确率就越高。
  5 总结
  本论文中重要研究的是哈萨克语语言模型的建立并优化并应用在单词切分技术中,而通过词素来建立的语言模型比其他以单词或音节来建立的语言模型更有应用价值,因此本文根据哈萨克语黏着性特点和词干词缀的连关系,利用统计的方法对哈萨克语以词素来进行统计和分析,建立词素语言模型为主框架的哈萨克语单词切分方法。因此通过morphem来建立的语言模型不但在单词切分,还有拼写错误检测,语言模型优化,语音识别等语言处理研究中起了重要作用。
  致谢:本文工作获得国家自然科学基金项目资助(编号为61462085)
  参考文献:
  [1] 古丽拉·阿东别克.基于规则的哈萨克语词干提取系统的研究[A].中国中文信息学会民族语言文字信息专委会民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C].中国中文信息学会民族语言文字信息专委会,2007:6.
  [2] 达吾勒·阿布都哈依尔,古丽拉·阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008(19):146-149.
  [3] 达吾勒·阿布都哈依尔,海拉提·克孜尔别克. 基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报:自然科学版,2011(2):238-241.
  [4] 江阿古丽·哈依达尔,卡哈尔江·阿比的热西提,阿里木江·亚森,等. 一种哈萨克语句子相似度计算方法的研究[J].新疆大学学报:自然科学版,2012(4):471-474 479.
  [5] 李婧,刘海峰.现代哈萨克语词干提取研究[J].信息通信,2015(7):103-104.
  [6] 张定京. 现代哈萨克语实用语法[M]. 北京:中央民族大学出版社,2004.
  [7] 黄昌宁. 统计语言模型能做什么?[J]. 语言文学应用,2002(1):77-84.
  [8] 吴根清. 统计语言模型应用研究及其应用[D]. 北京:清华大学,2004.
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
水墨勾干,填色加墨,花片朱红加黄,花蕊白粉脆点,叶子水墨点写,微风习来,花中牡丹随风伴叶而动,这就是人称“张牡丹”的画家张雪父。画中的牡丹,流动之间,花动香飘。这种师法
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
在嵌入式系统中BootLoader的作用类似于Windows的BIOS,用来引导操作系统.所做的工作基本上就是进行一些简单的初始化工作,然后将控制权转交给要运行的操作系统或应用程序.现
当前,面向未来教育有四大支柱:学会认识、学会做事、学会共同生活、学会做人。因此,学生想要立足于社会,更好地满足未来社会的发展需求,单单掌握专业知识是完全不够的,还必须要掌握较强的专业技能、实践能力,形成良好的个人素质。尤其是目前我国高校,在教学上仍沿用传统的以教师、以课堂、以书本为中心的教学方式,过分依赖说教式教学,重知识、轻能力,不仅禁锢了学生在学习上的主动性,也很难适应当前社会的发展需求。而参
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
利用Q10生铁开发活塞环用钼、铜、铬合金珠光体球墨铸铁,对其化学成分设计、熔炼工艺、球化、孕育处理进行试验和探究,通过加入质量分数0.1%Mo,0.5%Cu,0.5%Cr,以及适量的增碳
时下,有一些不成文的“潜规则”,领导干部出席会议,要看会议组织单位负责人有没有人缘,会不会请;领导干部接受宴请,要看都有谁参加,如不适宜便会婉言谢绝;就连领导干部下基层
长久以来,人们一直用“阿里阿德涅线团”来比喻认识、解决复杂迷茫事物的方法。虽然各学科随着研究的进展都存在着对方法论的思考,可结合神话对这个隐喻及其所指的方法范型和本
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊