论文部分内容阅读
近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速而准确的获取有价值的信息越来越受到研究人员的关注。语句压缩技术作为解决这一问题的基本技术具有很高的现实意义。语句压缩可以应用于自动文摘、问答系统和机器翻译等诸多任务中。本文以语句压缩为核心,提出了中文语句压缩规范,并在规范指导下人工标注了一个语料库。利用该语料库,本文构建了一个针对中文任务的自动压缩系统,并采用人工和自动两类指标对压缩结果进行评价。本文的主要工作和贡献主要包括以下几个方面:(1)鉴于目前语句压缩任务的主流研究方向集中于有监督的学习方法,而缺乏大规模适用于该任务的平行语料库给研究工作带来了很大的挑战。因此,本文根据中文语言结构特点,提出了一套中文语句压缩语料库标注规范,并在该规范指导下构建了语料库NEUCSS,共3308组“原语句-压缩句”句对。NEUCSS填补了目前适用于该任务的语料库的空白,为未来相关研究工作提供良好的数据基础。另外,本文还介绍了整个语料库的标注实施过程以及质量控制手段。(2)利用NEUCSS语料库,构建了一套针对中文任务的自动语句压缩系统。系统基于同步树替换文法,在预处理生成平行句法树的基础上进行规则抽取,之后采用支持结构化输出的支持向量机算法学习模型参数,并利用该参数对测试句子进行解码,获得最终压缩结果。(3)进行了中文语句压缩任务的评价指标的研究。主要有人工评价和自动评价两种方法。由于人工评价结果准度高,可信性强,因此目前大部分的研究工作都以采用人工评价指标为主。因此,本文也从语法正确性和语意完整性两个角度对系统压缩结果进行了人工评价和分析。然而人工评价时间和人力成本过高,因此,本文引入了压缩率、BLEU、 NIST、GTM、WER、PER、TER及Relations F1几种自动评价指标,并通过实验分析发现几种自动评价指标与人工评价有良好的相关性。