双语对齐技术研究

被引量 : 9次 | 上传用户:kof00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在联系日益紧密的当今世界,人们对获取用异种语言(非母语)表达的信息和知识的需求空前增长,机器翻译和跨语言信息检索等相关领域的研究也随之出现新的热潮。但目前的机器翻译系统还远远不能让人满意,其中一个重要的原因就是翻译知识的获取比较困难。用人工方式获取翻译知识,覆盖面有限且代价高昂。因而,从大规模真实双语语料中自动挖掘双语知识已经成为获取翻译知识的非常重要的途径,而其中一项关键技术就是双语对齐技术。 本文首先在中日子句对齐平行语料上实现了一个基于关键词匹配的双语语料检索系统,并在此基础上进行词对齐的研究。在词对齐方面,首先实现了一种基于启发式方法的组合词对齐算法,然后在分析统计翻译模型方法不足之处的基础上,提出了基于最大熵(ME)的词对齐模型。最大熵词对齐模型可以方便而有效地集成多种上下文信息。实验表明,在噪声训练的环境下,最大熵词对齐模型取得了较好的对齐精度。最后讨论了词与词组一级的一种特定对齐技术——命名实体(NE)对齐,分别用改进的IBM Model 1和最大熵方法在中英句子对齐平行语料上抽取中英命名实体翻译等价对,均取得了较好的结果。
其他文献
当代世界的文艺理论、文艺社会学、文艺心理学以及美学研究无不受到马克思主义的深刻影响。马克思主义文艺学与历史上其他文艺思想的根本区别之一,就是马克思主义文艺学的一
国民党官僚资本的形成及其在中国社会发展进程中的作用,是中国革命史教学中的一个重要课题。这一问题的研究,不仅具有理论上的意义,而且具有政治上的现实意义。对此仅从理论
随着我国电视业的飞速发展,国内各种综艺节目层出不穷、蓬勃发展,但是,这些综艺节目大多内容相似、风格雷同、趣味低俗,缺乏对审美价值的高追求。在这样的综艺娱乐化环境下,新闻出版广电总局发布“限娱令”“限韩令”,对综艺节目进行整改,纠正当今综艺节目畸形的制作方法。在这样的背景下,以《朗读者》为代表的文化类综艺节目应运而生,节目凭借着自身优秀的特点受到观众的青睐。文化类综艺节目作为一种文化产物,受众选择观
通过静态沉降试验模拟浓缩池剩余污泥的浓缩过程,考察不同浓缩时间下污泥性质和浓缩效能的变化规律,并分别对浓缩时间为12、20、32、48 h的浓缩污泥进行聚合氯化铝(PAC)调理,
主要探讨直角坐标系下二重积分的计算方法与技巧,将积分区域分成X型和Y型两大类,并且给出了两种类型的几何特点,分别列出了二重积分的累次积分的公式,最后举例加以说明。
罗红霉素对酸稳定,是目前临床上使用广泛、疗效优良的新型红霉素产品。合成它需要两步,第一步:红霉素或硫氰酸红霉素与盐酸羟胺在酸性条件下转化为红霉素肟;第二步:红霉素肟与甲氧
本实验以云南高原湖泊特有鱼类云南倒刺鲃(Spinibarbus yunnanensis)和抚仙金线鲃(Sinocyclocheilus tingi)作为研究对象,研究了抚仙湖云南倒刺鲃和抚仙金线鲃的年龄、生长、
全球性的网络化、信息化进程正改变着人们的生活方式,Internet技术应用以及电子商务的飞速增长给人们生活工作的各个层面带来了深刻的影响。回顾我国的办公自动化的进程,也经
电子商务是在Internet与传统信息技术相结合的背景下应运而生的一种动态商务活动,电子商务将参与商务活动的各方即商家、顾客、银行或金融机构、信用卡公司或证券公司和政府
非法移民扰乱了正常的国际交往规则和移民秩序,损害国家主权、社会稳定和法制尊严,危及个人的生活和财产安全,是一种有组织的跨国、跨地区的违法犯罪行为。它的形成原因和危害后