维吾尔语人称代词指代消歧研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户：netgood

【摘要】

：

自然语言中广泛存在的缺省和指代现象,使得文本在全局层面包含语义缺失的问题,对机器理解带来了难度和严峻挑战。本文针对维吾尔语中具备典型指称特性的人称代词进行指代消歧

【作者】

：

秦越

【出处】

：

新疆大学

【发表日期】

：

2004年期

【关键词】

：

指代消歧待消歧项识别零指代维吾尔语

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然语言中广泛存在的缺省和指代现象,使得文本在全局层面包含语义缺失的问题,对机器理解带来了难度和严峻挑战。本文针对维吾尔语中具备典型指称特性的人称代词进行指代消歧研究,从显性人称代词与缺省零代词两方面着手,构建针对上述两方面的指代消歧框架,利用篇章文本中的上下文隐含深层语义信息对维吾尔语语篇的缺省语义进行恢复,从而便于机器理解,为机器翻译、信息抽取等NLP研究做有力支撑。在研究指代消歧过程中,我们发现,合理的待消歧项识别工作能够避免指代消歧过程中引入非必要的噪音,因此,本文针对显性人称代词做了待消歧项识别方面的研究。目前,指代消歧研究大多基于浅层或人工抽取的语义特征,而忽略了对文本深层次语义的挖掘,针对维吾尔语的人称代词指代消歧工作,本文做了以下几点研究:(1)针对维吾尔语显性人称代词,构建以深度学习机制和词向量为核心思想的人称代词指代消歧框架。利用双向长短时记忆网络(Bi-directional long short term memory,Bi-LSTM)捕获目标词汇上下文隐藏语义特征的优势,构建堆叠的两个的Bi-LSTM模型分别挖掘候选先行语与照应语在语篇上下文层面的隐藏语义关联,从深层语义层面出发,探索词向量(word embedding)与深度学习算法在维吾尔语人称代词指代消歧任务中的有效性与合理性。(2)针对维吾尔语缺省零代词,构建基于栈式降噪自动编码器(Stacked Denoising Autoencoder,SDAE)的零代词指代消歧框架。以词向量为语义载体,将其作为候选先行语和缺省零代词的语义特征。此外,依据维吾尔语缺省零指代消歧特点,构建包含14项特征的hand-crafted特征集。将词向量语义特征和hand-crafted特征集融合,作为SDAE的输入,使模型学习融合特征中具有鲁棒性的深层语义特征,有效完成维吾尔语零指代消歧任务。(3)在指代消歧研究过程中,存在指代词是否为确切指向前文某一实体的问题,若消歧过程中引入非必要的无效非待消歧项,会影响指代消歧性能,因此,有必要对指代消歧的待消歧识别开展研究。针对维吾尔语显性人称代词,本文构建深度置信网络(Deep Belief Networks,DBN)的显性人称代词待消歧项识别框架。以待消歧项自身和其上下文信息为依托,抽取10项特征集,作为DBN的输入,逐层的训练受限玻尔兹曼机(Restricted Boltzmann Machine,RBM),以无监督的方式学习文本中隐含的语义特征,并在模型的最后一层设置BP网络,有监督的训练全局网络且进行微调操作,对RBM输出的特征向量进行分类,将本任务视为二分类问题,最终完成维吾尔语人称代词待消歧项识别研究。

其他文献

数据挖掘在实验室信息管理系统中的应用研究

疾病预防控制中心所使用的实验室信息管理系统符合国际规范,它能够确保疾病控制中心内部实验室的各项检测数据符合国家的ISO/IEC17025标准规范,能较好地保证数据的真实性和数

学位

数据挖掘实验室信息管理系统分类聚类

物联网末端多通道接入协议选择与优化研究与实现

随着网络技术的不断发展,未来的通信系统将变得更加复杂,多种无线技术共存是必然趋势。在网络接入技术方面,不同的网络有其自身的优缺点,在网络接入技术方面也有其自身的特点

学位

异构无线网络网络选择马尔可夫模型业务类型阻塞率

四川盆地的陆地岛屿效应

本文以树麻雀(Passer montanus)为对象,通过研究四川盆地内、外种群形态特征差异与遗传结构,探讨四川盆地的陆地岛屿效应。我们测量了分布于四川盆地及周边地区的558只成年树

学位

四川盆地陆地岛屿效应树麻雀形态变异遗传结构

《進〈四庫全書〉表》及其箋注二種之研究

清修《四庫全書》,是我國文化史上的重大事件之一。而其副產品——《四庫全書總目》,自問世以來,嘉惠學林,沾溉後學,至今仍是古代文史研究者案頭必備之書。在《總目》卷首有

学位

進四庫全書表四庫全書表注李文田四庫全書表文笺釋林鶴年

面向智慧医疗云平台数据使用的隐私保护研究

智慧医疗空前火热,各医疗云平台快速崛起,数据使用阶段使得医疗云平台充分发挥出医疗数据的价值。然而,医疗数据中包含大量个人隐私信息,数据处理不当会导致个人隐私的泄露,同时因其数据的价值性,针对医疗数据的攻击方式和数量大幅度增加。数据使用的主要方式有数据发布、智慧诊断模型应用以及统计直方图发布等,本文针对以上三种使用阶段的数据安全问题以及数据安全性与可用性无法有效平衡的问题,按照“数据规范化—>

学位

智慧医疗数据发布模型发布差分隐私

图像协同显著性检测方法研究

受人类视觉注意机制启发,图像显著性检测旨在让计算机自动检测出图像中的显著性区域。面向图像大数据,如何从大规模的图像集合中检测出共有的显著性目标已经成为一个亟待解决

学位

协同显著性检测深度学习多图模型秩约束特征对比流形排序角度嵌入

民国时期绥远地区所属县保卫团问题研究（1916-1937）

清末民初以来,匪患问题在全国范围内愈演愈烈,由于清除匪患、清查户口的需要,北洋政府开始着手建立保卫团。南京政府之后也继续沿袭这样一项政策。本文利用多种民国档案和报

学位

绥远地区匪患保卫团治安

USIP的实现方法研究及其在三创平台中的应用

从计算机互联网时代,到万物互联的物联网时代,互联的对象不再仅仅局限于计算机。但是目前没有一套规范的物联网开发通信协议和物联网对象接入方法,实现的仅仅是局部的“万物

学位

物联网USIP泛在对象EITP三创平台

天津市社会救助家庭经济状况核对精细化研究

社会救助家庭经济状况核对是新型社会救助体系的一项基础工程。作为精准救助困难群众至关重要的前置环节,核对工作在当前扶贫攻坚形势下,更加突出精准,愈发注重高效,各方面都必须实现精细化治理。对于天津市而言,核对工作正式启动刚满两年,在起步阶段走向成熟的时期,不可避免地会面临诸多难度与挑战。本文基于精细化视角对天津市社会救助家庭经济状况核对工作进行研究,注重理论与实践相结合。通过文献法梳理国内外核对工作研

学位

社会救助经济状况核对精细化治理目标定位因子分析

西藏普通高等学校本科专业设置与调整的对策研究

长期以来，我国高等教育发展一直是执行“顺经济发展周期”，那么伴随着中国社会经济的持续发展，本科教育不仅要能从数量上满足社会经济的发展，而且还要能从质量上先胜一筹。2010年

学位

本科专业设置调整

维吾尔语人称代词指代消歧研究

其他学术论文