基于WEB的双语句对齐语料的获取和过滤

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liyang12886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语料库。它能够提供两种语言之间丰富的匹配信息,在翻译知识的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有着重要的应用价值,但是大规模、高质量的平行双语语料的获取却存在很多的困难。本文面向互联网领域,实现了一套基于WEB的双语句对齐语料的获取和过滤的系统,主要就是为了解决大规模和高质量的平行双语语料资源获取的问题。本文首先对互联网的平行双语资源进行调查和分析,对不同类别的双语资源提出了不同的处理方法。本文发现大量的双语句对齐语料可以从经过篇章级对齐处理的双语语料中获取,所以首先本文研究如何获取双语篇章级对齐语料。然后对于这些从网络上获取的平行双语文本,本文进行句对齐处理,将其转化成双语句对齐语料。最后,采取了分类的思想将所得到的平行双语语料进行过滤,得到了高质量的双语句对齐语料。本文在第二章分析了互联网上现存的平行双语资源,并有针对性的提出了本文的研究研究重点。在第三章中提出了一种利用由数字和NE构成的网页指纹进行候选网页获取的方法,这种方法克服了以前研究中对URL命名相似性过度依赖而导致召回率过低的缺点,获得了大量的篇章级平行语料。面对真实网络环境的双语文本,本文在第四章提出了一种利用句子长度和位置信息的双语文本的句子对齐方法来获得句对齐语料,通过实验也获得了较高的准确率和健壮性。本文在最后一章主要解决如何获得高质量句对的问题,提出了一种基于SVM的分类模型来对高低质量的双语句对进行分类,最终也大大提高了获取语料的质量。随着平行双语语料资源在统计机器翻译等自然语言处理领域发挥着越来越重要的作用,源源不断的获取高质量和大规模的平行双语语料的工作也越来越有价值。
其他文献
逆向工程技术是随着计算机技术的发展和成熟以及数据测量技术的进步而迅速发展起来的一门新兴学科与技术。它的出现,改变了原来CAD系统中从图纸到实物的设计模式,为产品的迅
模糊规划是解决带有模糊参数规划问题的一种统一的优化理论,它可以很好的解决数学模型的约束检验和模糊目标不易转化为清晰等价类的问题。到目前为止,用于求解模糊规划问题的
字符串匹配是计算机研究领域中的一个古老、经典而且被广泛研究的课题,是信息检索领域和计算机生物学领域等的关键技术之一。在当今的互联网时代,对匹配算法的需求日新月异,
TCP是基于有线网络而设计的,并认为网络发生的丢包是拥塞丢包。但是,无线网络常常伴随着无线发送错误丢包。在这种情况下启动拥塞控制机制就必然减小发送端的拥塞窗口。丢包
随着社会的进步、国民经济的发展,电能在日常生活中扮演着越来越重要的角色,企业电网实时监控系统旨在将电能这一抽象的商品通过计算机实现其可视化和可管理化。然而目前WEB环境下的电网实时监控系统仍然存在某些不足,不能很好地适应实时系统的实时性要求,主要表现在:(1)传统刷新技术通信效率低下,当通信数据量大时数据刷新慢且资源消耗大;(2)所依赖的关系型数据库系统只强调事务一致性、可恢复性,不显式地考虑时间
目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep
随着计算机技术的发展与3C产品的融合,数字家庭成为人们关注的焦点,数字家庭给人类带来了一种全新的生活方式。在医疗领域,数字化医疗逐渐普及,在数字电视上开发一个数字医疗互动
超限超重货物运输在铁路运输中占有重要地位,对于满足国家大型工程项目和国防建设的运输需求具有十分重要的意义。根据铁路信息化总体规划,铁道部专业运输部门确立了超限超重
离群数据挖掘是数据挖掘中的主要研究内容之一,通过离群数据挖掘,能够发现一些真实的、但又出乎人们意外的知识,因而引起了广大研究者的兴趣。传统的离群数据挖掘方法大多数
在大型复杂实时协作等关键应用中,需要高可靠性的保障。如何保证系统能快速、准确、可靠、持久的运行,是需重点解决的关键问题之一,这就需要系统具备冗余和容错能力。 实