基于Web的英汉双向未登录词翻译方法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:it8844
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索中极其重要且充满挑战的问题。近年来,基于Web的未登录词翻译研究发展迅速,然而其中仍存在很多关键问题有待进一步分析和解决。针对面向英汉双向的未登录词翻译,本文提出一种基于Web挖掘和Ranking-SVM排序的统计未登录词翻译模型。其中,针对汉语分词的难点,建立基于简化PAT-Tree抽取计算的无词典翻译候选抽取模式;针对翻译对评估手段的难点,提出基于有监督学习Ranking-SVM的翻译对准确度排序模式。这种组合模型在汉语未登录词识别方面不仅借鉴PAT-Tree方法,对词串成词可信度计算作以相当程度的简化。更重要的是,在翻译对的相关度衡量方面,引入基于支持向量机与Ranking-SVM的有监督学习方法。该方式能更好地融合翻译候选词的各个特征,对于所抽取的短语或词串与原有未登录词之间的相关程度,给出较为准确的评估。本文提出相对客观的评价标准。比如,为了衡量翻译候选词单个特征的性能,使用CoNLL-2003语料进行训练和测试;为了衡量汉译英的整体性能,本文又使用SIGHAN 2008中由北京大学所提供的用于命名实体识别(Named Entity Recognition, NER)评测任务的训练语料,这使得我们的实验结果相对公正客观,具有一定的可比性。本文针对目前基于搜索结果未登录词翻译模型研究的特征集合加以完善,设计更多有意义的特征并予以比较分析。另外,在排序实验部分,与同为融合多特征的最大熵算法实验结果进行对比分析,使得论证的逻辑更为严密。综上,本文综合分析主流的基于Web的未登录词翻译算法,并提出PAT-Tree算法与Ranking SVM排序算法相结合的翻译模型,给出未登录词翻译的尝试性应用,希望能给相关领域的研究者有所借鉴。
其他文献
签密能够在一个逻辑步骤中同时完成公钥加密和数字签名的功能,能保证信息传输的机密性、完整性、不可伪造性和可验证性,其计算量和通信开销都低于传统的“先签名再加密”。基于
随着现代网络技术、计算机技术、多媒体技术的不断发展,远程实验已经成为远程教育的重要组成部分。远程实验利用了网络、远程控制的优势,以硬件平台为载体,以网络为通道,结合
无线传感器网络作为一种新兴技术,在工农业、城市管理、抢险救灾等许多领域都有重要的科研价值和应用前景,是目前学术界研究的热点问题之一。其中,传感器节点的定位问题是无
人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的
互联网技术的快速发展使信息传播更加简单快捷,网络环境中数字资源的版权保护和合法性认证逐渐成为信息安全技术的热点。矢量数字地图数据由于精度高、操作方便、数据量小和
随着计算机的广泛应用和互联网技术的迅速发展,信息技术得以在各行各业广泛运用,给人们的工作生活带来巨大的变化。而新兴的工作流技术在信息系统中的应用更是大大提升了信息
信号分解是信号处理的基本方法,可以有效刻划和分析信号的特征,是理论研究和实际应用中的重要工具。将一个复杂的信号分解为简单原子的线性组合,将有利于我们了解信号所隐含
学位
近年来,项目反应理论是心理与教育测量非常活跃的研究领域,正迅速成为主要的测量理论之一。项目反应理论是在批评经典测量理论的局限性的基础上发展起来的,随着统计方法的完
经验模式分解是近年来提出的一种新的信号处理方法,是一种完全由数据本身驱动、自适应的分解过程,不依赖于预先设定的基函数,故能对非平稳非线性信号进行有效的分析。它的自
随着无线局域网的快速发展,它自身存在的安全性问题,也慢慢的引起了人们的关注。入侵检测系统作为信息安全的重要组成部分,已经成为当前网络安全领域的研究热点。尽管有线网