中文语句压缩关键技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:luo665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速而准确的获取有价值的信息越来越受到研究人员的关注。语句压缩技术作为解决这一问题的基本技术具有很高的现实意义。语句压缩可以应用于自动文摘、问答系统和机器翻译等诸多任务中。本文以语句压缩为核心,提出了中文语句压缩规范,并在规范指导下人工标注了一个语料库。利用该语料库,本文构建了一个针对中文任务的自动压缩系统,并采用人工和自动两类指标对压缩结果进行评价。本文的主要工作和贡献主要包括以下几个方面:(1)鉴于目前语句压缩任务的主流研究方向集中于有监督的学习方法,而缺乏大规模适用于该任务的平行语料库给研究工作带来了很大的挑战。因此,本文根据中文语言结构特点,提出了一套中文语句压缩语料库标注规范,并在该规范指导下构建了语料库NEUCSS,共3308组“原语句-压缩句”句对。NEUCSS填补了目前适用于该任务的语料库的空白,为未来相关研究工作提供良好的数据基础。另外,本文还介绍了整个语料库的标注实施过程以及质量控制手段。(2)利用NEUCSS语料库,构建了一套针对中文任务的自动语句压缩系统。系统基于同步树替换文法,在预处理生成平行句法树的基础上进行规则抽取,之后采用支持结构化输出的支持向量机算法学习模型参数,并利用该参数对测试句子进行解码,获得最终压缩结果。(3)进行了中文语句压缩任务的评价指标的研究。主要有人工评价和自动评价两种方法。由于人工评价结果准度高,可信性强,因此目前大部分的研究工作都以采用人工评价指标为主。因此,本文也从语法正确性和语意完整性两个角度对系统压缩结果进行了人工评价和分析。然而人工评价时间和人力成本过高,因此,本文引入了压缩率、BLEU、 NIST、GTM、WER、PER、TER及Relations F1几种自动评价指标,并通过实验分析发现几种自动评价指标与人工评价有良好的相关性。
其他文献
本论文研究内容是国家某预研课题的一部分,目的是研究RISC微处理器的体系结构和方法,设计兼容于PowerPC指令集的32位嵌入式微处理器。做为一款百万门级的处理器“龙腾R2”,其测
图纸识别技术是近些年计算机应用领域的热点之一。特别在建筑领域中存在着大量的工程图纸,对这些图纸若实现计算机的自动识别,就能够完成对图纸上建筑工程量信息和数据的自动计
由于本体在表述语义方面的优势,越来越多的本体被开发出来,那么如何将本体集成就成为一个急需解决的问题,在集成过程中一个非常重要的步骤就是如何找到源本体和目标本体的映射关
最近几年,对等计算(Peer-to-Peer,简称P2P)迅速成为计算机界关注的热门话题之一,P2P模型与传统的C/S模型相比,其优势在于降低了对服务器的依赖和它的分散控制。一些P2P模型甚至不
当代科技革命的主要特征,是以计算机为支持手段进行信息处理。随着计算机的广泛应用,计算机已由过去的数据处理、信息处理发展到现在的知识处理,对语言文字的信息处理。而语言是
无线传感器网络以其易部署、自组织、成本低、自愈能力强等特点,在军事侦查、环境监测、医疗护理、空间探索、灾难救援等领域展现出了广阔的应用前景。节点定位是无线传感器
本文通过对原有船舶综合航行性能预报、评估及优化设计集成系统(SHIDS)的认真分析和研究,总结了其中存在的问题。在系统的功能方面,只是对各种模块进行了简单的堆积,没有一个合
当今Internet技术正将世界各地的丰富信息资源带到我们每一个人面前。随着网络信息的爆炸式增长,人们越来越关心怎样高效、准确地检索出自己想要的信息资源。传统搜索引擎的发
随着计算机的发展,社会中各行各业都离不开计算机,同时计算机可以给人们带来很大的方便和创新。字符串在计算机领域中是一种重要且基础的存储结构。现如今大量的数据都是以字
在对各种WEB数据库中间件技术的研究基础上,本文选择JDBC作为典型的对象进行研究。文章指出了JDBC技术在开发网络数据库过程中存在的一些问题,并对其提出自己的改进意见。