基于深度学习的跨语言信息抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jbl6055871
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于机器学习的信息抽取方法性能依赖训练语料的质量和数量。然而标注数据在不同语言分布不均衡,阻碍了中文的信息抽取研究。针对这一问题,研究人员提出跨语言信息抽取方法,利用资源丰富语言(源语言)的标注数据来训练资源匮乏语言(目标语言)的信息抽取系统。然而,语言鸿沟和机器翻译错误影响了信息抽取的性能。本文研究基于深度学习的中英文跨语言信息抽取技术,主要包括以下内容:(1)基于降噪自动编码机(DAE)的双视图跨语言信息抽取提出基于DAE的双视图跨语言信息抽取方法。在源语言和目标语言向量重构过程中,DAE适当引入噪音,减少翻译错误对分类性能的影响。同时,在中英文两个视图,分别构建分类模型,融合两个模型的分类结果,减少语言鸿沟对分类性能的影响。在跨语言情感分类和跨语言模糊限制语识别两个任务进行实验,证明DAE模型和双视图方法均能有效提高跨语言信息抽取性能。(2)基于双语词表示的跨语言信息抽取提出基于双语词表示的跨语言信息抽取方法,双语词表示的学习分为无监督和有监督两个学习阶段。无监督学习阶段利用DAE进行中英文双语词表示学习,捕获中英文双语语义信息。有监督学习阶段将训练语料的标注信息嵌入双语词表示,提高信息抽取性能。实验表明,双语词表示能够有效捕获双语语义信息和标注信息,克服双视图方法难以深入融合两种语言的不足。(3)基于联合表示学习的跨语言信息抽取提出基于联合表示学习的跨语言信息抽取方法。采用长短时记忆递归网络(LSTM),学习中英文双语表示。在词语义表示基础上,引入上下文情感(模糊)信息表示,联合训练情感词(模糊限制语)在特定语境下的语义和情感(模糊)信息。实验表明LSTM能够有效实现跨语言信息抽取。同时,词语义表示与上下文情感(模糊)信息的联合表示学习能够进一步提高跨语言信息抽取的性能。本文研究了基于深度学习的跨语言信息抽取方法,减少了翻译错误、语言鸿沟等对跨语言分类性能的影响,获得了有效的双语语义信息和标注信息,提高了跨语言信息抽取性能,为深度学习理论在跨语言的相关研究提供了有益借鉴。
其他文献
随着计算机和网络技术的飞速发展,多媒体信息的复制、存储和加工变得越来越容易实现,如何判定数字多媒体信息的真实性和完整性也成为了一个亟需解决的问题,基于数字水印的认
随着信息技术的快速发展,数据采集和存储技术开始广泛应用于人们的生产生活,很多领域都积累了大量的数据。所获取的数据正在以指数级的速度增长。然而这浩如烟海的数据只有部
互联网技术的迅猛发展,为传统的易货贸易提供了信息共享和支付交易的新平台,大大提高了传统易货交易的可操作性。以债务链为基础,用物资链解决债务链问题的易货贸易模式,能够
通过BREW项目过程中不断的开发和维护我认识到,如果能有一个通用的BREW应用引擎能够支撑大多数的BREW应用,那么我们就能大大缩短开发和维护的时间而达到事半功倍的效果。正是
数字化信息的爆炸性增长,对存储系统的性能、扩展性和可用性等提出了较高的要求。磁盘阵列(Redundant Array of Independent Disk, RAID)作为存储系统中的核心存储设备,其以可靠
随着网络和信息技术在银行和电子商务等领域的广泛应用,人们对信息安全的要求越来越高。传统的信息安全技术,如防火墙、入侵检测、病毒防范等从外部对系统进行防护的方法已不
随着网络融合、通信市场的开放,电信市场上形成了激烈的竞争格局。这些都要求能够快速、灵活提供业务的网络管理能力。在这种情况下,网络管理系统需要由固化、面向结构、面向
随着科学技术的发展和人类社会的进步,人类从对自然的研究发展到对社会的研究,又发展到对人脑思维的研究,而脑电的信息处理研究正是这方面的典型领域。小波分析作为一种新的
随着信息技术尤其是Internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息
无线传感器网络的主要任务是采集环境数据,但是由于其通常部署在敌对区域,网络信息容易遭到敌对方的恶意篡改和伪造,因此如何保证网络收集到的数据的完整性、可靠性与新鲜性