面向领域辅助翻译的词典资源获取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:asdf20091234567889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国信息化进程的深入和电子政务的建设,大量的社会和经济信息已经电子化。而由于国际政治经济的交流和发展,如何向世界范围内发布这些相关的信息成为一个现实需求。近年来机器翻译技术虽然取得了很大的进展,特别是统计翻译方法的突破,使得自动翻译结果多数情况下可以满足日常浏览的需求,但是在面对高质量跨语言信息发布的需求时,机器辅助翻译仍然是更加现实的解决方案。本文针对电子化信息的翻译问题,以一个发布公司基本信息的电子信息库为例,探索了针对特定领域的机器辅助翻译系统的开发技术。本文分析发现目前中文信息的电子化手段多采用数据库形式,并将不同关键信息分字段存放。信息库中不仅包含大量的机构名称、地址、人名等命名实体信息,还包含大量专业术语等领域文本特征。而针对信息发布的需求,其翻译过程强调信息关键点的准确性,而不十分看重全文翻译质量和速度。针对这些翻译需求,本文重点研究了相关的辅助翻译技术,探索了多层次、多类型的翻译词典获取方法。具体地,本文的研究内容包括:(1)针对翻译领域中的各种单语词汇,研究特定领域中几种主要中文词典的构建方法,包括:利用n-gram字串的频率信息实现单语词典辅助获取系统,提高领域一般词汇的获取速度;以中文机构地址的层次性词典获取为突破口,研究层次性词典获取问题;以中文机构类别的获取为突破口,研究后缀型词汇的获取方法。(2)探索了基于Web的中文机构名称译文获取技术。针对命名实体的专有固定译文获取难题,通过构建包含原文和启发信息的查询,获取并分析搜索引擎返回的结果页,进而通过构词知识和机器学习方法解决正确译文的识别。实验表明,该方法能在较短时间内获取大部分中文机构名称的译文,避免了以往Web平行语料挖掘的对于存储空间和网络带宽的巨大负担。(3)设计并实现了面向领域信息发布的辅助翻译系统。在上述几种词典资源获取方法及基于Web的译文获取技术的基础上,本文设计并实现了针对领域信息发布的机器辅助翻译系统,该系统为用户提供了关键词标注、自动翻译、摘译等功能,辅助用户翻译,初步满足了用户的跨语言信息加工需求。
其他文献
生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。如何提高蛋白质分类的精确性,或在保证精
汽车示波器的诞生,为汽车维修人员快速诊断汽车电子设备和点火系统故障提供了一个有力的工具。目前,国内汽车专用示波器市场几乎全被国外厂商占领,高昂的价格阻碍了汽车专用示波器在汽车修理过程中的广泛应用,这严重阻碍了我国汽车修理业的发展。因此对汽车专用示波器的研究和设计具有十分重要的意义。本文主要目的是设计出一款能够普及使用的手持式汽车专用示波器,该示波器特点为采用液晶显示、重量轻、操作使用方便;其功能包
无线传感器网络已经广泛应用于环境监测、目标追踪、地理路由等领域。大量低成本、多功能、微小体积的无线传感器网络节点可以布置在一定的区域形成一个大规模的、动态拓扑结
电力系统规模逐渐增大,数据量提升,而当前的计算技术缺乏关于数据整体特征的描述,无法根据现有的数据准确充分做出决策。将计算机领域的数据挖掘技术应用于电力系统的暂态稳定评估领域,研究大数据量处理前提下的电力系统计算方法,对于提高电力系统计算水平将有巨大帮助。电力系统暂态稳定评估存在两个主要问题:一是参与分析评估的训练集不足以覆盖整个样本空间,所选特征变量不能全面、正确地描述电力系统的运行状态,导致分类
随着多媒体技术和互联网技术的飞速发展,数字告示系统以其灵活高效、多区域、多元素和实时播放等特点得到越来越广泛的应用,同时也获得了人们的一致好评,被誉为“第五媒体”。但
无线传感器网络(WSN)的MAC协议处于网络协议的底层部分,它决定无线信道的使用方式,对无线传感器网络的性能有极大影响,是保证无线传感器网络高效通信的关键网络协议之一。传
三维地形场景视景仿真技术是近年来在虚拟现实领域中一项重要的技术,它以三维地形网格为主,结合多媒体、立体视觉、传感技术创造出一个身临其境的虚拟世界。三维地形技术是视
目前移动商务发展迅速,但是图形化应用是移动商务面临的一个的问题。虽然移动终端市场对J2ME的支持较为普遍,但是网络传输能力较弱,即使3G网络会提高网络传输速度,移动终端更
随着无线网络与可移动设备的发展,移动计算正逐步成为分布式计算的主流,移动计算使得人们在保持网络连接的同时能够自由移动,这促进了许多新的分布式应用的出现。但是移动计