【摘 要】
:
双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。像人名、地名、机构名、技术术语以及各类新
论文部分内容阅读
双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。像人名、地名、机构名、技术术语以及各类新词经常出现,且无论多么庞大的双语词典也无法将这些词语收录完全,这些词语称之为未登录词。随着时间的变化,不断有新的未登录词出现。在机器翻译、跨语言检索等自然语言处理系统中,为了正确翻译这类词语,需要不断的更新系统的翻译词典。总的来说双语词汇的构建需要解决两方面的技术:一,未登录词的获取;二,未登录词译文的获取。本文将在如何解决这两类技术问题上做一些研究工作。本文实践了基于基本短语识别的未登录词获取技术。首先标注出文本中的基本短语,然后对于不在翻译词典中的词语视其为未登录词候选。对于基本短语的识别,采用了基于组块模型的统计识别方法。基本短语识别实验所处理的语言为英语,但我们这一方法是语言独立的,可以移植到其他语言。未登录词中含有大量音译词。对音译词译文的获取可以采用特殊的方法处理,如运用专门的音译模型。但这首先要做的工作是识别音译词。本文提出了两个统计模型,用于音译词识别。实验显示,这两个模型的识别精确率达到97%以上。同样,我们对直译词意译词的识别也做了研究。本文以最大熵模型作为分类器,以词语的构词特征作为分类特征,通过实验得出了一些有用的结论。最后,本文对如何从可比较网页中获取未登录词译文做了研究。依据源语言词与目标语言词的上下文相似性大小来判断是否为互译的翻译对。本文分别运用了DICE相关系数,条件概率值作为上下文相似性的评价尺度。
其他文献
人脸研究一直是计算机视觉、模式识别和计算机图形学领域中的热点研究问题之一。目前,通过监视器得到的人脸图像分辨率不高,以至于给人脸识别和跟踪等后续应用带来很大的困难
人脸表情识别是利用计算机技术,将人脸表情特征与预先从图像库中提取的特征进行综合比较,以达到人脸表情识别的技术。该技术在模式识别、智能控制等领域都有着很高的社会价值
在PC机和普适计算盛行的今天,嵌入式系统的应用已经成为计算机工业最热门的领域之一,16位/32位高端MCU由于具有功能强大、处理速度快、能耗低等优点,逐渐成为研究与开发的热
移动自组网(Mobile Ad-hoc NETworks,MANETs)是一种没有基础设施支持的无线网络,具有多跳、无中心、自组织、可移动等特点,使得移动自组网组网方便、快捷,不受时间和空间限制
基于网格的信息分发系统中,需要处理海量信息,不仅信息量大属性缺失的数据也常见。若不能进行正确处理,就会产生信息淹没与数据垃圾,无法获取信息优势。本文研究的基于粗糙集的分
P2P网络在协同工作、分布式信息共享、大规模并行计算等方面显示出独特优势,但是在可管理性、激励性和安全性等方面仍然存在很多问题:P2P网络的分布式特性增加了节点管理的难
移动自组网(MANET)由于不依赖固定的基础通信设施、无中心控制节点、抗毁性强等特殊优势,在军事领域和民用领域均发挥着重要作用并具有很好的应用前景。然而,网络的动态变化
硬件集成电路瞬时故障(又被称为软错误)是由空间高能粒子所导致的,它对航天器的寿命和可靠性影响极为严重。为了提高航天应用系统的可靠性,目前航天计算平台采用经过硬件加固
随着高校教育体制的改革及学分制的推广,学生选课的自主性越来越大。但是学生在选课的过程中,由于对所选课程需要的基础知识认识不足,导致选课具有一定的盲目性。对此,通过对
随着计算机网络和通信技术的发展,通信网络的通信能力越来越强,同时通信网络支持的业务类型也趋向于多样化。现有通信网络的通信能力较以前已经有很大提高,但是随着信息量的日益