论文部分内容阅读
语言在人们的日常生活中扮演着重要的角色,是执行任务、完成工作的手段。语言有口语、书面语之分。在任何语言处理任务中,语料库语言学的研究都很有意义。一般来说,语料是组织好的文本集合,包括口语和书面语资源。从计算语言学的角度,语料是采用电子手段处理的大量文本的集合,包含各种各样的信息。语料能够准确揭示语言的使用模式,是语言统计学产生的根源。不同的基于语料库的方法可以被用来完成不同的语言学相关任务。 基本上,对屈折语言进行句法分析和信息检索等任务的研究时,使用的资源是经过词法分析的文本。例如给每个词语指定一个包含所有可能词法类别标记的集合,能够使词语本身更有意义,也更容易理解。然而多数系统需要更加精准的信息,这些系统仅仅需要一个单独的词法类别,以便准确地应用在特定的文本中。这一过程被称为“标注”(Tagging),它利用输入文本中词语的上下文从标记类别中选择最适当的标记。 在任何与自然语言处理相关的任务中,标注问题的重要性都丝毫不能忽略。本文的主要研究对象是乌尔都语(Urdu)。跟其他语言,如英语、汉语相比,乌尔都语的计算机自动处理技术研究远远落在后面。这主要归因于缺乏标准标注集和已标注资源。考虑到这些资源的昂贵价格和构建的困难性,这是难以避免的。然而,就像论文里所描述的,我们跨越了这些障碍。 乌尔都语属于印欧语系,受波斯语和阿拉伯语的影响很大,同印地语关系密切,是东南亚地区的一种重要语言。在许多国家,如巴基斯坦、印度和阿富汗等具有重要的地位。全世界有超过6千万人把乌尔都语作为母语,有超过1亿人把乌尔都语作为第二语言。在互联网时代,研究乌尔都语的自动处理技术,对于乌尔都语的使用和推广具有重要作用,因而本文的研究具有重要意义。 我们考察了乌尔都语词性标注研究中的各种不同问题。对乌尔都语分析的结果表明,对于词序自由(freewordorder)和高度屈折(highlyinflected)的语言来说,未登录词是标注错误的主要来源。英语中的未登录词大多数都是专有名词,然而研究表明,乌尔都语的未登录词通常是有标志或无标志的名词、动词以及无标志的形容词。这些未登录词与乌尔都语结合起来,加深了标注问题的难度,在这个意义上乌尔都语更像土耳其语(Turkish)或捷克语(Czech),而不是英语。 本文着重论述我们在乌尔都语词性标注方面所取得的进展。统计方法在其他自然语言的处理过程中曾经大显身手,因此他们也被用来构建和标注乌尔都语的语料库。鉴于其他印度语系语言语料的缺乏,本文所获得的事实和结论对于其他印度语系语言来说也富有积极的启发意义。 乌尔都语作为一种高度屈折和词序结构自由的语言,具有很高的歧义性。本文着重于使用不同的基于统计的方法来处理乌尔都语语料,比如N-gram,基于词形态结构的模型,隐马尔科夫模型(HiddenMarkovModel)以及最大熵模型(MaximumEntropyModel)。 我们首先使用了N-gram模型,重点分析了Unigram、Bi-gram和Back-off模型在乌尔都语词性标注中的应用。这些模型标注时使用了覆盖词语周围信息的上下文。我们也分别考察了两种标注集(大小不同)和语料规模对N-gram标注模型性能的影响,结果表明我们提出的小标注集获得了非常好的效果。在大、小标注集的基础上,我们进一步构造了混淆矩阵来分析最容易产生歧义的标注子集,并通过使用基于统计的t-分布来考察使用大、小标注集结果的有效性。跟其他复杂的统计模型相比较,N-gram既简单又有效。 接着我们使用隐马尔科夫模型来解决歧义问题。我们使用有监督学习算法基于已标注语料库进行模型的参数选择,并使用Viterbi算法找出与文本中词语序列最匹配的词性标记序列。我们的方法最突出的特点是在隐马尔科夫模型中整合了多种有名的平滑技术,比如Laplace、Lidstone、Expected、Likelihood、WittenBell和GoodTuring等等。我们观察到平滑技术在处理未登录词时起到了很重要的作用,但是有时基于规则的方法也很有效。对于各种平滑技术,我们针对屈折性比较高的词性标记构造了混淆矩阵进行分析。此外,还使用了基于方差分析(ANOVA)的统计评价方法进行分析,结果表明平滑技术对于整体的标注正确率和未登录词正确率有很重要的影响。 最大熵模型也被我们采用用来解决乌尔都语的词性标注问题。最大熵模型也是一种有监督的学习方法,因此需要标注好的语料库。在最大熵模型中,我们采用的特征包括词语形态学特征和上下文特征。两种参数估计方法:GIS和LBFGS被分别用来训练模型的参数。实验中我们发现,LBFGS比GIS具有更快的速度和更好的效果。我们设计了针对不同标注集和不同规模的训练集上的实验,这些实验的结果表明,采用最大熵方法,乌尔都语的词性标注的整体准确率位于89.71%和97.16%之间。其中,词表词的词性标注的准确率位于90.12%和97.73%之间,未登录词的词性标注的准确率位于81.75%和86.20%之间。这个结果表明乌尔都语的词性标注的性能达到了实用水平。 最后我们把基于词形态结构的模型整合到统计模型中,着重评价基于词形态结构的方法在处理未登录词问题的效果。统计模型在此处仅仅起到过滤未登录词的作用。词形态结构特征基于常用的屈折变化进行抽取,我们通过使用相关方法的结果的平均值来分析新模型的性能提升的统计显著性。该分析在对词性标注的性能进行评价的同时还能够显示每一个词形态结构特征集合的有效性。 本文中所有的标注系统都是通过在EMILLE语料库上进行训练获得的,该语料库由英国的兰彻斯特大学(LancasterUniversity)创建。EMILLE语料库主要由单语语料、平行语料和带标注语料等构成。 在本文中,我们通过一系列步骤来构建乌尔都语的词法标注器,这些步骤展示了我们每个阶段工作的结果。正如我们所看到的,标注模型的性能随着特征的增加和模型的复杂在逐步提高,未登录词的问题也逐渐得到解决。本文所研究的词性标注技术为乌尔都语的深层处理提供了良好的基础。在未来的工作中,我们将继续研究乌尔都语的深层自动处理技术,如语义角色标注、句法分析等,推动乌尔都语的推广和使用。