论文部分内容阅读
随着互联网与计算机技术的飞速发展,全球各国都在进入一个高速发展的信息化阶段。海量的信息在给人类的生活提供便利的同时,也带来了信息灾难。尤其是最近几年移动互联网与智能手机等高科技的火爆,信息数据更是呈现爆炸式的指数增长,在信息的海洋里如何获得用户所需要的内容成为一个热点。在这些海量信息中存在着很多的省略,这些省略常常指向前文中的某些实体。中文零指代研究旨在对汉语中省略的句法成分进行识别并恢复。因为零指代项没有词法、性别、单复数等表面信息,所以中文零指代研究比传统的中文指代消解研究有着更大的挑战。本文紧紧地围绕中文零指代研究展开,分别做了以下的探索与研究。首先,使用机器学习方法构建了一个基于最大熵的中文零指代项识别系统,为了尽最大的可能来提升中文零指代项的识别性能,我们在此系统上探索了中文零指代项上下文的词法、中文零指代项的句法等多种平面和结构化的特征。紧接着,本文同样使用机器学习方法搭建一个基于SVM(支持向量机)的中文零指代项消解系统。在此系统上探索了中文零指代项、候选先行词以及两者的联合特征,来提升最终的零指代项消解性能。然后将中文零指代项识别系统与中文零指代项消解系统进行整合,构建一个有着完整统一框架的中文零指代研究系统。最后本文提出了一个基于双语的方法来提升中文零指代研究的性能。完整的中文零指代研究系统包括:中文零指代项识别系统与中文零指代项消解系统。我们在中文零指代研究系统上进一步的探索研究,并探索融入英文的作用,在基于双语的基础上进行中文零指代消解性能的提升。实验结果表明,与单语相比较,本文基于双语的方法在实验中取得了更好的实验效果。