论文部分内容阅读
随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索中极其重要且充满挑战的问题。近年来,基于Web的未登录词翻译研究发展迅速,然而其中仍存在很多关键问题有待进一步分析和解决。针对面向英汉双向的未登录词翻译,本文提出一种基于Web挖掘和Ranking-SVM排序的统计未登录词翻译模型。其中,针对汉语分词的难点,建立基于简化PAT-Tree抽取计算的无词典翻译候选抽取模式;针对翻译对评估手段的难点,提出基于有监督学习Ranking-SVM的翻译对准确度排序模式。这种组合模型在汉语未登录词识别方面不仅借鉴PAT-Tree方法,对词串成词可信度计算作以相当程度的简化。更重要的是,在翻译对的相关度衡量方面,引入基于支持向量机与Ranking-SVM的有监督学习方法。该方式能更好地融合翻译候选词的各个特征,对于所抽取的短语或词串与原有未登录词之间的相关程度,给出较为准确的评估。本文提出相对客观的评价标准。比如,为了衡量翻译候选词单个特征的性能,使用CoNLL-2003语料进行训练和测试;为了衡量汉译英的整体性能,本文又使用SIGHAN 2008中由北京大学所提供的用于命名实体识别(Named Entity Recognition, NER)评测任务的训练语料,这使得我们的实验结果相对公正客观,具有一定的可比性。本文针对目前基于搜索结果未登录词翻译模型研究的特征集合加以完善,设计更多有意义的特征并予以比较分析。另外,在排序实验部分,与同为融合多特征的最大熵算法实验结果进行对比分析,使得论证的逻辑更为严密。综上,本文综合分析主流的基于Web的未登录词翻译算法,并提出PAT-Tree算法与Ranking SVM排序算法相结合的翻译模型,给出未登录词翻译的尝试性应用,希望能给相关领域的研究者有所借鉴。