融合形态结构与语法关系的藏语语言模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:sunna2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。
  藏语作为资源匮乏的语言之一,目前没有公开的、标准的音频和文本数据资源。根据藏语拉萨方言的特点和藏语文本的特殊性,本文考虑了音素平衡以及文本域问题,构建了藏语的音频和文本语料库。基于藏语句子中一些虚词接续错误和低频词问题,本文重点关注了藏语中后缀对虚词的影响,以及形态动词对低频词的影响。
  在上述基础上,首先,本文提出了藏语静态形态结构关系的语言模型。与其他语言不同,藏语中特有的静态形态结构关系(即后缀对虚词接续关系)会严重影响藏语句子的语义理解。具体地,除了字本身的信息之外,字的后缀信息能够使其更加准确接续正确的虚词。因此,本文将静态形态结构融入到字的信息中,以纠正句子中一些语法错误,从而使句子语义能够准确表达。其次,本文提出了藏语动态形态结构关系的语言模型。我们发现在语料中有一些动态形态结构关系(即藏语中的形态屈折变化词),这类词比较特殊且重要,对句子的语义会产生重要影响,尤其是在语音识别中的同音字,预测错误的可能性较大。由于词类中候选词越多,其对应的候选词权重越低,被选中的概率就越低。为此,我们对藏语中的形态动词进行加权,使其不但能够被分配到更高的词类中,而且能更加准确地表示句子语义。最后,本文提出了融合静态和动态形态结构的藏语语言模型。经统计发现,静态形态结构关系可以纠正句子中语法错误的问题,而动态形态结构可以使句子中形态动词的权重发生变化,这两种结构具有互补的关系,能够进一步增强对藏语句子语义的理解。我们有效融合了静态和动态形态结构,不仅考虑到后缀对虚词的影响,而且对形态动词进行了加权以增强句子的语义理解,比仅考虑单个特性的模型在性能上有所提升。
  综上所述,通过构建藏语语料库以及对其分析,我们发现语法和低频词问题。进而将后缀对虚词的语法问题以及形态动词对低频词的影响应用于藏语语言模型的研究中,可以有效提升藏语句子的识别和理解能力。除了语音识别,本文的工作还可被应用到手写体识别、机器翻译和句法分析等藏语自然语言处理的不同任务上,希望该工作能为藏语信息处理研究做出一点绵薄之力。
其他文献
智能电网作为对传统电网的重大改进,通过双向的电力流和信息流连接了系统的各个组成部分,在可靠性、可用性、效率、经济收益等多方面都优于传统电网。需求响应作为智能电网管理技术中重要的组成部分,可以降低峰值需求、平滑电力供需曲线、降低系统整体开销和提高系统稳定性。现有文献中的需求响应方案设计主要着眼于优化用户的负荷分布,对用户电器的能耗模式、用户满意度、公平性和用户的用电习惯等重要因素缺乏足够的重视。针对
学位
数据不完整是web异构数据库、多关系数据库和时空数据库中普遍存在的问题。Skyline查询作为一种能够满足用户多目标决策需求的数据库操作,在多目标实时决策系统、数据挖掘、电子商务和推荐系统等领域中有着巨大的应用价值。目前非完整数据库中的Skyline查询存在着支配性丢失和结果集过小或不具参考性等问题,概率Skyline可以有效解决上述问题,因而研究非完整数据库中的概率Skyline查询具有重要的意
学位
病理诊断是癌症确诊的“金标准”。近些年数字病理技术普及和计算机技术快速发展促进计算机辅助病理诊断的发展,目前已有很多病理图像分析相关研究通过计算机来实现,在本文中主要的研究内容为病理图像的细胞核检测以及组织分割。但是目前病理图像的分析大多基于卷积神经网络,没有考虑到病理图像的高阶一致性。基于目前研究方法中所存在的问题,本文提出了基于生成对抗网络的病理图像分析研究方法用于解决病理图像细胞核检测和组织
学位
随着脑成像和机器学习技术的飞速发展,研究人脑如何编码信息成为了热点研究领域,越来越多的研究人员致力于利用机器学习来帮助理解人脑的工作原理。近年来,功能磁共振成像(fMRI)成为解码人脑的一项重要技术,其高分辨率特性能最大程度地捕捉到大脑某一时刻的活动信息。为了获得关于人脑的广泛性结论,汇总来自不同被试者的fMRI数据是必不可少的。而解剖结构和功能拓扑的多变性则进一步要求必须对不同的大脑活动表征空间
学位
很多的研究者开始尝试拓展现阶段的智能设备的功能,使其够感知周边物体的运动,与用户进行隔空交互,甚至可以通过感知用户行为来获取用户的一些隐私信息。这些功能大多都是基于智能手机的距离感知实现的。随着科技的进步以及硬件的升级,使得商用智能设备,比如智能手机、移动终端、平板电脑、可穿戴设备等也可以发射和接收超声波信号。超声波可用于感知声源附近的运动,可以让用户在不影响使用的同时得到更好的体验,但是同时也隐
学位
基于图的推荐算法能深入刻画推荐系统中的各类交互信息,其中,图卷积网络类方法因具有强大的特征表征能力而得到了越来越多的关注。推荐系统中普遍存在着异质和同质两类交互信息,已有的图卷积类推荐算法无法做到对两类交互信息的统一利用。此外,在显式评分的推荐系统中评分以边权的形式出现,而现有图卷积网络框架下的推荐系统无法对评分边权加以利用。针对现有图卷积网络类推荐系统中存在的问题,本文研究了如何针对推荐系统的特
学位
空间记忆是日常生活中的必不可少的一项能力。先前的研究已经对空间记忆中的性别差异做了大量的探讨,实验的结果既有“显著性差异”又有“无性别差异”的发现,截至目前为止,针对空间记忆中性别差异而提出的假设仍然不能对所有出现的结果做出解释。本研究中,我们通过分析空间记忆中的性别差异及其与导航能力之间的行为相关性,以此探究导航过程中空间记忆阶段性别差异的产生机制。为此,我们招募了在校大学生作为志愿者,按照指示
学位
图表示学习是指在处理关联性数据时,基于关联性数据中目标间的相互联系与目标自带的特征信息对目标进行特征表示。图表示学习常用来对目标进行端到端的多分类,或下游机器学习任务的展开,如预测、量化目标之间的关联性,目标的类别分类或可视化,以及在目标间进行推理。基于深度学习的图表示学习可以分为两类:半监督图学习主要通过参数化矩阵完成标注信息的传播,而该方法面临的问题之一是参数的过度平滑;无监督图学习基于标签平
学位
实验心理学是通过实验方法对人类的心理和行为规律进行研究的一门心理学科。传统的实验心理学研究大多采用统计学方法进行数据分析,且数据处理基本使用手工或半手工的方式,效率较低。随着计算机的发明与计算机技术的发展,许多交叉研究应运而生,计算机与其他学科的交叉融合改进了传统的研究方法,大大促进了各门学科的发展。  本论文利用计算机技术辅助心理学研究,通过分析被试的眼动数据,探究聋成人和健听成人在视听语音感知
学位
随着计算机图形学、数字图像处理、光学等技术的发展,人们对于显示效果的要求越来越高。真三维显示作为各国大力发展的三维立体显示技术,已经成为了一个重要的科研领域。而体三维显示技术是真三维显示技术中的重要研究方向。国内外已经做了许多有关体三维显示系统的研究,但是当所用于显示计算的三维点云数据中包含横向凹陷区域时,体三维显示系统往往会出现显示问题,无法正确显示出对应凹陷区域的颜色信息,影响显示真实度。  
学位