采用统计机器翻译模型的复述生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:HELING0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
所谓复述,就是对相同语义的不同表达方式,是自然语言中比较普遍的一个现象,它集中反映了语言的灵活性和多样性。近年来,自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。有许多学者针对复述问题展开了大量研究,在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了这些系统的性能。复述研究主要分为两大类:一类是复述资源的获取,即从各式语料中基于各种方法抽取复述句对、复述短语、复述模板等不同粒度和形式的复述资源;另一类是复述生成,通常指的是句子级的复述生成,即由计算机自动生成给定句子的复述句。本文重点研究了基于统计模型的复述生成技术。复述生成在自然语言处理的诸多方向均有重要应用,但目前在这方面的研究还很不够。本文通过对复述生成问题本质的分析以及与其它相关研究问题(尤其是机器翻译)的比较,在统计机器翻译模型的基础上进行改进,提出了一种统计复述生成方法。该方法的主要特色体现在以下两方面:(1)该方法可以基于一个统一的统计模型框架,针对不同的复述任务生成复述;(2)该方法可以轻易地结合多种资源来提升复述生成的性能。然而,该方法仍然需要极为丰富的复述资源作为基础,但优质的复述资源往往是很难获得的。因此,本文在此基础上又提出了一种基于枢轴法和多机器翻译引擎生成复述的方法,该方法首先利用多枢轴方法为源语言句子获得候选复述集,然后分别使用基于选择和基于解码的技术,为源语言句子生成复述。实验结果表明,本文提出的方法可以很容易地从一种应用切换到另一种应用,并且生成很有价值的复述句子,而通过多枢轴方法则可以简单高效地获得大量优质的候选复述,从而进一步提高复述生成的性能。
其他文献
在经济全球化趋势下,越来越多的企业开始在不同区域内创办分支机构。为了满足办公信息化的需要,企业经常会基于广域网的传输通道建立集中化的数据、信息服务中心。因此,广域
随着互联网的快速发展,随之出现了大量的微博、商品评论信息,这些信息往往带有一定的感情色彩,反应了人们对社会、经济等事件的关注;对这些信息进行分析挖掘对消费者、生产者
中、西医学通过对人眼虹膜的长期研究发现,人眼虹膜组织结构会随着机体疾病的发生、发展而发生改变,并且根据虹膜结构的不同变化特征与机体的不同脏器病变相对应。本文的研究
无线传感器网络操作系统是对无线传感器网络的研究中最重要的部分之一,它与传统的嵌入式实时操作系统有很大的不同。WSNOS对传感器节点的能源、内存资源利用提出了更高的要求
Petri网是对离散并行系统建模的有效工具之一。Petri网的结构有直观的图形表示也有基于数学工具的抽象表述方式。它的理论发展为分析系统行为和计算机科学提供坚实的理论基础
软件定义网络(Software-Defined Networking,简称SDN)架构为未来网络和创新网络应用的研究提供了一种新的思路和解决方法,而构建方便的SDN网络实验平台将会推动SDN架构及其应
企业与服务智能计算建模工具(以下简称ICES-Modeling建模工具)是由哈工大ICES中心自主研发的一款面向企业应用的建模工具,它具有简单直观的特点。它提供了构建平台独立模型和
随着Internet和搜索引擎技术的发展,Web文档聚类已成为提高Web搜索和个性化服务的一个重要支撑技术,Web文档的表示则是影响Web文档聚类的结果的重要因素之一。目前Web文档聚
随着互联网应用的快速普及,网络安全和信息安全日益成为保障网上业务正常进行的关键。作为第一道安全防线,防火墙的地位显得尤为重要。防火墙位于内外网络的网关位置上,所有
汉字输入技术随着自然语言处理研究的进展而不断进步,其对应的输入法系统也不断地涌现。这些系统在满足一般性需求上已经取得了较好的成绩,但用户在转换准确率和转换速度仍有更