条件随机场在蒙古语词切分中的应用

来源 :内蒙古大学 | 被引量 : 21次 | 上传用户:lzy9061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古语词切分是蒙古语信息处理中的一个基础课题,具体内容是利用计算机自动识别出构成蒙古语词的词干与词缀。蒙古语的词干与词缀中包含大量的语法信息,利用这些信息有助于提高蒙古语机器翻译、信息抽取、信息检索等系统的性能。近年来,研究人员对蒙古语词切分做了初步的研究,并取得了一定的研究成果:基于规则和词典的词切分准确率达到了0.86,基于SKIP-N的统计方法的词切分准确率达到了0.939。总的来说蒙古语词切分的研究起步较晚、深入程度较浅,词切分准确率还不能满足实用的要求。本文阐述了蒙古语词切分的研究现状及研究意义,对比分析了现有的蒙古语词切分方法。现有的蒙古语词切分方法虽然在实现上有所不同,但都在很大程度上依赖于人工产生的切分规则集。本文的研究思路是基于蒙古语的语料库和统计语言学的方法,首次将蒙古语词切分作为一个序列标记问题来研究,而不依赖于人工的切分规则集。本文介绍了与序列标记问题相关的概率图模型理论,对比分析了几种常用的序列标记模型,指出条件随机场模型是一种能够表示交叠特征和消除了标记偏置问题的概率图模型。在分析蒙古语词构形特点的基础上,提出一种对词干及词缀采用不同标记的标记集。为了能够利用构词成分级的上下文信息,还提出了基于句子的训练模型。实验表明,本文提出的区分词干与词缀的标记集在词切分准确率等评价指标上均高于未区分词干与词缀的标记集。实验结果也表明利用构词成分级的上下文信息能够提高词切分准确率,基于词的训练模型的词切分准确率为0.988,基于句子的训练模型的词切分准确率为0.991。
其他文献
AVS-M是新一代先进的用于移动视频的图像压缩编码标准,是我国自主制定的音视频编码技术标准AVS的第七部分,是为了适应数字存储媒体、网络流媒体、多媒体通信等在移动通信应用
随着互联网和多媒体技术的发展,特别是在数码相机、扫描仪等多媒体设备的日益广泛普及,使数字图像的数量飞速增长,如何快速而有效地从海量图像数据库中查询到用户所需要的图
随着互联网大规模的普及、信息时代的高速发展,网络数据量呈爆炸式增长趋势,产生信息过载问题。如何从海量数据中快速获取自己真正想要的信息一直是个研究热点。目前,推荐系
随着计算机软硬件技术的飞速发展,图像处理技术已经被广泛地应用于生活的各个领域。图像分割作为图像分析中的关键步骤,一直是图像处理技术研究中的热点和焦点。图像分割是将
学位
随着Interact的不断发展和普及,Web应用系统得到了广泛的使用。进入Web2.0时代以来,基于框架的Web开发逐渐成为主流开发技术。由于Web应用的分层开发及框架本身限制,单一框架很
随着计算机软、硬件技术的迅速发展,高性能计算逐渐在越来越多的行业中得到应用。并行计算是实现高性能的一种重要的技术途径,其关键环节是并行程序设计。串行程序并行化作为
? ? ? ? ? ?随着Internet的迅猛发展与普及,以及宽带网络建设的日益完善,网络开始带给人们形式多样的信息。从在网络上出现第一张图片到现在各种形式的网络视频、三维动画,人
本文所研究的限量弧路由问题(Capacitated Arc Routing Problem,CARP)是一个经典的组合优化问题。它在现实中具有非常广泛的应用,如冬季撒盐路由、城市垃圾清理、信件投递等现
在高性能计算技术研究领域,机群系统具有良好的可扩展性与高性价比,受到越来越多的大学及科研机构的青睐。随着计算机集成技术的不断发展,多核技术开始大行其道,双核及四核的处理
计算机网络经历了网络互联、万维网,正在向大规模的分布式网格计算阶段发展。网格计算是把Internet上的计算资源、存储资源、服务资源等信息资源虚拟化并集中为可共享的服务