多策略英汉词对齐技术的研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 0次 | 上传用户:foxgp123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语对齐的目标在于指明平行文本片段之间的对应关系,最早是作为统计翻译模型的中间产物而被提出。在英汉词对齐技术研究中,词形、语义、句法的多样性和灵活性,未登录词及分词错误等不利因素,一定程度上直接或间接影响了词对齐的质量。人们尝试结合不同的信息来提高词对齐的质量并获得了很好的成绩。迄今为止,出现了很多高准确率的词对齐算法,每种典型的算法自身都有其特有的优势。如基于统计的方法,可以识别一定数量的未登录词,不足之处是需要大规模的双语句对作为支撑;基于词典的方法可靠性较高,但不能识别未登录词;基于知网的方法一定程度上可以处理语义信息,但词汇量十分有限,义原的定义还有待进一步细化。本文介绍了目前国内外关于词语对齐技术的研究现状,阐述了几种具有代表性的词语对齐方法,分析了它们的理论基础,算法实现和各自的特点。双语语料的词语对齐在很多自然语言处理领域具有十分重要的作用。本文通过对双语语料和各种不同类型算法对齐结果的分析,利用一个语法上潜在的规律指导词对齐的消歧过程。在这种观点的指导下,吸取了目前主流方法各自潜在的优势,提出一个多策略词对齐算法,它融入了基于词典的方法,基于知网的方法和基于统计的Giza++方法。实验表明,该多策略方法取得了很好的测试结果,在对齐结果上F值达到85.15%,较优化后的IBM模型提高近10%。同时,对齐错误率降低10%,在统计机器翻译的实例测试中也取得良好的效果。该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补,实现过程简单有效,并且方便融入更多的词对齐方法。通过对多策略方法的对齐结果进行分析,本文发现错误对齐主要发生在分词出错的地方。为了进一步优化对齐的结果,本文实现了一个字对齐模块,获得了95.01%的F值和0.05的对齐错误率。
其他文献
在计算机虚拟仿真领域,应用粒子系统模拟不规则模糊物体的方法已经得到了广泛应用。随着游戏玩家对场景环境要求的日益提高,粒子系统已经成为计算机游戏领域不可或缺的关键技
电子商务是国际市场出现和发展起来的新兴贸易方式。电子商务网站的建设比较容易,但要让电子商务网站发挥更高的效益则是困难的事情。如何吸引客户,提高客户的忠诚度成为企业
图形用户界面(Graphic User Interface),简称为GUI,是指采用图形方式显示的计算机操作环境用户接口。它借助菜单、按钮等标准界面元素和鼠标操作,帮助用户和计算机之间进行交
基于内容的图像检索中面临两个问题:首先是底层视觉特征与高层语义之间存在差距;其次是视觉特征向量的维数较高,使得大型图像数据库中的检索速度非常慢。针对上述问题,本文重点
文本分类在很多文本挖掘和信息检索系统中发挥着重要的作用,可以改善检索性能、提供导航/浏览机制及发现相似文本等。文本分类的研究已成为数据挖掘中一个非常重要的课题。文
众所周知,因特网的迅速普及,推进了全球信息化的建设,与此同时也正深刻的改变着人们的生活和思维方式。因特网作为人们信息获取不可或缺的来源,由于其缺乏统一的组织和管理,
本文描述和实现的数据管理软件是空间信号子系统中的核心软件,主要是作为子系统中的数据管理中心,对整个系统中的数据进行统一的管理。空间信号子系统在分系统中主要负责空间
Verilog语言编辑环境简单、设计方法多样,既可以描述硬件系统模型的结构和行为,又可以描述系统的功能,因其简洁多样的形式,在数字电路系统模型设计中得到广泛应用。需求和功
随着通信理论的发展,低密度奇偶校验码(Low-Density Parity-Check codes,LDPC codes)作为一种逼近香农限的线性分组码,凭借其较低的译码复杂度和良好的纠错性能,成为当前信道
随着网络信息化技术的发展,存储系统在整个信息系统中所占的比重逐渐增加。目前存储数据被非法访问、泄漏和篡改等安全问题日益受到重视。本文对SAN和NAS融合的安全问题进行