论文部分内容阅读
基于机器学习的信息抽取方法性能依赖训练语料的质量和数量。然而标注数据在不同语言分布不均衡,阻碍了中文的信息抽取研究。针对这一问题,研究人员提出跨语言信息抽取方法,利用资源丰富语言(源语言)的标注数据来训练资源匮乏语言(目标语言)的信息抽取系统。然而,语言鸿沟和机器翻译错误影响了信息抽取的性能。本文研究基于深度学习的中英文跨语言信息抽取技术,主要包括以下内容:(1)基于降噪自动编码机(DAE)的双视图跨语言信息抽取提出基于DAE的双视图跨语言信息抽取方法。在源语言和目标语言向量重构过程中,DAE适当引入噪音,减少翻译错误对分类性能的影响。同时,在中英文两个视图,分别构建分类模型,融合两个模型的分类结果,减少语言鸿沟对分类性能的影响。在跨语言情感分类和跨语言模糊限制语识别两个任务进行实验,证明DAE模型和双视图方法均能有效提高跨语言信息抽取性能。(2)基于双语词表示的跨语言信息抽取提出基于双语词表示的跨语言信息抽取方法,双语词表示的学习分为无监督和有监督两个学习阶段。无监督学习阶段利用DAE进行中英文双语词表示学习,捕获中英文双语语义信息。有监督学习阶段将训练语料的标注信息嵌入双语词表示,提高信息抽取性能。实验表明,双语词表示能够有效捕获双语语义信息和标注信息,克服双视图方法难以深入融合两种语言的不足。(3)基于联合表示学习的跨语言信息抽取提出基于联合表示学习的跨语言信息抽取方法。采用长短时记忆递归网络(LSTM),学习中英文双语表示。在词语义表示基础上,引入上下文情感(模糊)信息表示,联合训练情感词(模糊限制语)在特定语境下的语义和情感(模糊)信息。实验表明LSTM能够有效实现跨语言信息抽取。同时,词语义表示与上下文情感(模糊)信息的联合表示学习能够进一步提高跨语言信息抽取的性能。本文研究了基于深度学习的跨语言信息抽取方法,减少了翻译错误、语言鸿沟等对跨语言分类性能的影响,获得了有效的双语语义信息和标注信息,提高了跨语言信息抽取性能,为深度学习理论在跨语言的相关研究提供了有益借鉴。