论文部分内容阅读
随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。 本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的三个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。 本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。 实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出 Baseline系统约7个百分点,有比较显著的提升。