基于Web的英汉双向未登录词翻译方法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：it8844

【摘要】

：

随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索

【作者】

：

王旸

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2010年期

【关键词】

：

未登录词翻译 PAT-Tree 支持向量机 Ranking SVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索中极其重要且充满挑战的问题。近年来,基于Web的未登录词翻译研究发展迅速,然而其中仍存在很多关键问题有待进一步分析和解决。针对面向英汉双向的未登录词翻译,本文提出一种基于Web挖掘和Ranking-SVM排序的统计未登录词翻译模型。其中,针对汉语分词的难点,建立基于简化PAT-Tree抽取计算的无词典翻译候选抽取模式；针对翻译对评估手段的难点,提出基于有监督学习Ranking-SVM的翻译对准确度排序模式。这种组合模型在汉语未登录词识别方面不仅借鉴PAT-Tree方法,对词串成词可信度计算作以相当程度的简化。更重要的是,在翻译对的相关度衡量方面,引入基于支持向量机与Ranking-SVM的有监督学习方法。该方式能更好地融合翻译候选词的各个特征,对于所抽取的短语或词串与原有未登录词之间的相关程度,给出较为准确的评估。本文提出相对客观的评价标准。比如,为了衡量翻译候选词单个特征的性能,使用CoNLL-2003语料进行训练和测试；为了衡量汉译英的整体性能,本文又使用SIGHAN 2008中由北京大学所提供的用于命名实体识别(Named Entity Recognition, NER)评测任务的训练语料,这使得我们的实验结果相对公正客观,具有一定的可比性。本文针对目前基于搜索结果未登录词翻译模型研究的特征集合加以完善,设计更多有意义的特征并予以比较分析。另外,在排序实验部分,与同为融合多特征的最大熵算法实验结果进行对比分析,使得论证的逻辑更为严密。综上,本文综合分析主流的基于Web的未登录词翻译算法,并提出PAT-Tree算法与Ranking SVM排序算法相结合的翻译模型,给出未登录词翻译的尝试性应用,希望能给相关领域的研究者有所借鉴。

其他文献

基于属性的签密方案研究

签密能够在一个逻辑步骤中同时完成公钥加密和数字签名的功能，能保证信息传输的机密性、完整性、不可伪造性和可验证性，其计算量和通信开销都低于传统的“先签名再加密”。基于

学位

公钥密码体制签密密钥协商数字签名

基于RIA的远程实验系统的研究与实现

随着现代网络技术、计算机技术、多媒体技术的不断发展,远程实验已经成为远程教育的重要组成部分。远程实验利用了网络、远程控制的优势,以硬件平台为载体,以网络为通道,结合

学位

远程实验RIAWeb Service信息流动态显示算法HTML5

基于遗传算法的无线传感器网络节点自身定位算法研究

无线传感器网络作为一种新兴技术,在工农业、城市管理、抢险救灾等许多领域都有重要的科研价值和应用前景,是目前学术界研究的热点问题之一。其中,传感器节点的定位问题是无

学位

无线传感器网络集中式定位遗传算法模拟退火算法性能评价

基于深度学习和迁移学习的语音情感识别方法研究

人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的

学位

语音情感识别特征学习深度学习迁移学习域适应

变换域二维矢量地图数字水印算法研究

互联网技术的快速发展使信息传播更加简单快捷,网络环境中数字资源的版权保护和合法性认证逐渐成为信息安全技术的热点。矢量数字地图数据由于精度高、操作方便、数据量小和

学位

数字水印矢量地图离散余弦变换离散小波变换

基于工作流技术的EAM系统的研究与实现

随着计算机的广泛应用和互联网技术的迅速发展,信息技术得以在各行各业广泛运用,给人们的工作生活带来巨大的变化。而新兴的工作流技术在信息系统中的应用更是大大提升了信息

学位

工作流管理系统工作流引擎EAM系统

信号自适应分解方法与应用研究

信号分解是信号处理的基本方法,可以有效刻划和分析信号的特征,是理论研究和实际应用中的重要工具。将一个复杂的信号分解为简单原子的线性组合,将有利于我们了解信号所隐含

学位

基于项目反应理论的计算机自适应考试系统的研究

近年来,项目反应理论是心理与教育测量非常活跃的研究领域,正迅速成为主要的测量理论之一。项目反应理论是在批评经典测量理论的局限性的基础上发展起来的,随着统计方法的完

学位

计算机自适应考试项目反应理论题库认知诊断

二维经验模式分解及改进方法在图像处理中的应用

经验模式分解是近年来提出的一种新的信号处理方法,是一种完全由数据本身驱动、自适应的分解过程,不依赖于预先设定的基函数,故能对非平稳非线性信号进行有效的分析。它的自

学位

经验模式分解图像处理径向基函数边缘检测图像去噪

基于神经网络的自适应无线域网入侵检测系统研究

随着无线局域网的快速发展,它自身存在的安全性问题,也慢慢的引起了人们的关注。入侵检测系统作为信息安全的重要组成部分,已经成为当前网络安全领域的研究热点。尽管有线网

学位

无线局域网入侵检测神经网络信息安全

基于Web的英汉双向未登录词翻译方法研究

与本文相关的学术论文