论文部分内容阅读
自然语言中广泛存在的缺省和指代现象,使得文本在全局层面包含语义缺失的问题,对机器理解带来了难度和严峻挑战。本文针对维吾尔语中具备典型指称特性的人称代词进行指代消歧研究,从显性人称代词与缺省零代词两方面着手,构建针对上述两方面的指代消歧框架,利用篇章文本中的上下文隐含深层语义信息对维吾尔语语篇的缺省语义进行恢复,从而便于机器理解,为机器翻译、信息抽取等NLP研究做有力支撑。在研究指代消歧过程中,我们发现,合理的待消歧项识别工作能够避免指代消歧过程中引入非必要的噪音,因此,本文针对显性人称代词做了待消歧项识别方面的研究。目前,指代消歧研究大多基于浅层或人工抽取的语义特征,而忽略了对文本深层次语义的挖掘,针对维吾尔语的人称代词指代消歧工作,本文做了以下几点研究:(1)针对维吾尔语显性人称代词,构建以深度学习机制和词向量为核心思想的人称代词指代消歧框架。利用双向长短时记忆网络(Bi-directional long short term memory,Bi-LSTM)捕获目标词汇上下文隐藏语义特征的优势,构建堆叠的两个的Bi-LSTM模型分别挖掘候选先行语与照应语在语篇上下文层面的隐藏语义关联,从深层语义层面出发,探索词向量(word embedding)与深度学习算法在维吾尔语人称代词指代消歧任务中的有效性与合理性。(2)针对维吾尔语缺省零代词,构建基于栈式降噪自动编码器(Stacked Denoising Autoencoder,SDAE)的零代词指代消歧框架。以词向量为语义载体,将其作为候选先行语和缺省零代词的语义特征。此外,依据维吾尔语缺省零指代消歧特点,构建包含14项特征的hand-crafted特征集。将词向量语义特征和hand-crafted特征集融合,作为SDAE的输入,使模型学习融合特征中具有鲁棒性的深层语义特征,有效完成维吾尔语零指代消歧任务。(3)在指代消歧研究过程中,存在指代词是否为确切指向前文某一实体的问题,若消歧过程中引入非必要的无效非待消歧项,会影响指代消歧性能,因此,有必要对指代消歧的待消歧识别开展研究。针对维吾尔语显性人称代词,本文构建深度置信网络(Deep Belief Networks,DBN)的显性人称代词待消歧项识别框架。以待消歧项自身和其上下文信息为依托,抽取10项特征集,作为DBN的输入,逐层的训练受限玻尔兹曼机(Restricted Boltzmann Machine,RBM),以无监督的方式学习文本中隐含的语义特征,并在模型的最后一层设置BP网络,有监督的训练全局网络且进行微调操作,对RBM输出的特征向量进行分类,将本任务视为二分类问题,最终完成维吾尔语人称代词待消歧项识别研究。