从可比语料抽取等价实体翻译对的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tonghuasong00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。  本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的三个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。  本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。  实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出 Baseline系统约7个百分点,有比较显著的提升。
其他文献
安全空间数据库是当前信息安全研究的一个重要分支,具有广泛应用前景。该领域的研究具有较强的保密性,信息技术发达国家对我国一直施行尖端安全产品禁止输出策略,数据库安全产品
随着网络技术的迅猛发展,电子商务和电子政务等也发展迅速。信息安全显得尤为重要。数字签名技术是信息安全理论与技术的基础和重要保证之一。在传统的数字签名中,对信息的签名
随着计算机相关技术的迅速发展,医院信息系统(HIS)已经成为医院不可或缺的一种快速、高效、准确的管理工具和手段。目前的医院信息系统着重于医院业务流程的重组与实现,而医院
网络蠕虫能利用系统漏洞,自动传播,造成网络拥塞甚至瘫痪,具有极大的破坏性。自网络蠕虫出现以来,已经造成了数百亿美元的直接经济损失。网络蠕虫对抗技术的研究具有重大的现实意
随着电影业的发展以及互联网的普及,每年都会产生大量的多媒体信息。这些多媒体信息中(如电影等),往往会包含不健康的内容,尤其是暴力内容。由于多媒体信息的急剧增多,仅仅依靠人工
针对目前信息检索系统的缺点,在研究Web信息过滤理论的基础上,论文提出了一种基于用户兴趣的Web中文信息个性化信息过滤系统PWCIFS,该系统结合人工智能Agent技术、机器学习技术
无线传感器网络(WSN)已经被广泛的应用于军事、医疗、交通和环境监测领域。无线传感器网络操作系统作为对传感器节点的抽象,影响着传感器节点提供服务的方式。与传统嵌入式操作
农业知识管理系统(AKMS)是在现有农业专家系统基础之上,利用先进的信息技术,将信息咨询系统与相关的农业专家系统集成为一个整体,使之能够更方便的应用于农业生产之中,成为带
中文信息处理的基础是分词。影响分词准确率的重要因素之一就是未登录词的识别,而未登录词识别的难点是专有名词识别。本文针对专有名词内部结构特点及其上下文词语环境特点,
入侵检测是计算机安全领域重要的动态安全技术,也是当前计算机安全理论研究的一个热点。 本文首先阐述了入侵检测的概念、研究现状和分类,比较了几种常见的入侵检测技术。在