基于深度学习的多语种短文本分类方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:gaofeijacky1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多语种交互是自然语言处理的重要研究方向,对不同语言下的数据进行分析和融合变得越来越不可或缺。已有文本分类器的规则大多数都是针对一种语言训练的,在转换语言领域的时候,分类器往往需要用新的规则来适应不同语种的数据集,因此对多语种文本分类的研究和应用具有重要的价值。本学位论文针对中、英、韩三国语言表述的科技文献摘要,研究多语种短文本分类问题,采用多语种文本特征的转换和融合策略解决分类器在不同语言中的领域适应性问题,并利用深度学习策略提高分类器的精度,为多语种信息处理提供基础依据。首先,收集来自多国语文献管理系统项目的科技文献摘要9万余篇,构成了由中英韩三种语言组成的平行语料库。科技文献的摘要大多在一百字到三百字不等,它的特点是术语居多且分类界限模糊,仅凭词语特征与现有的概率统计模型很难对其进行准确分类。本学位论文借助深度学习方法解决了的语义标识问题。其次,使用统计方法学习不同语言空间下特征之间的相互联系,以获得语言之间的自联想记忆关系。根据自联想记忆关系扩充单语种文本数据,使所有数据都可以完整地表示在多语种模型空间中。最后,利用卷积神经网络的局部感知性和权值共享理论,融合自联想记忆模型下的复杂语义表达,从而获得不同长度的短语融合特征。利用深度神经网络学习到任意语种语义的高层特征致密组合,并且输出分类预测。在扩展的卷积神经网络模型下,分类精度得到有效提升。文本提出的方法极大地降低了多语种文本对平行语料库的依赖程度,测试数据可以是训练集中包含的任意语种的文本。通过实验证明,本文提出的融合自联想记忆的卷积神经网络多语种文本分类与其他经典的模型相比,分类精确度提高了 2到6个百分点。另外,此模型还适用于跨语言情感语料正负面情感分类,实验效果明显优于现有的其他算法,这证明此模型对评论类型的文本语料也具有非常好的鲁棒性。
其他文献
解剖学上将胆囊管、肝总管及肝脏脏面三者构成的三角形区域称为胆囊三角(又叫Calot三角)。胆囊三角是临床解剖上的主要标志在进行胆囊切除手术时要在该三角内寻找胆囊动脉并
近年来,互联网飞速发展,逐步深入日常生活的方方面面。传统TCP/IP网络以位置为驱动的通信模型越来越不适应当下或未来互联网以信息和服务为驱动的需求。针对传统网络在移动性、
煤炭的开采处于高危环境下工作,生产环节多,系统复杂,机电设备种类繁杂,并且协同工作关系复杂,必须做到统一管理和调度。因此,对井上、下不同作业场所的生产现状和设备运行数据的采
随着计算机网络通信技术的迅速普及,在日常生活中,数字图像的使用变得越来越频繁,保证其安全已经得到了大家广泛的关注。由于图像具有信息量大、相邻像素的关联性强的特点,传
近年来温室监控系统发展迅速,由于温室监控区域较大,因此需要大量的传感器节点构成大型监控网络,通过各种传感器采集温度、湿度等相关信息,实现自动监控。数据融合技术是解决
近年来,随着互联网应用的迅速发展和云计算技术的广泛应用,数据存储量呈现爆炸式增长。如何在大规模数据集中找到人们感兴趣的数据,帮助人们做出有效的决断,是一个亟待解决的
作为计算机辅助诊断系统的关键技术,医学图像分割问题一直是图像分割问题领域的热点话题。由于医学图像自身的多样性和复杂性,传统的分割方法不能良好的适用于医学图像分割,
无线传感网络(Wireless Sensor Network, WSN)作为一种新型的数据信息获取和处理模式,已广泛应用于军事航空、空间探索、环境监测和健康医疗等领域。然而在实际应用中,无线传
基因芯片技术为疾病诊断、治疗以及新药物的开发提供了新的方法和手段。同时,基因芯片技术的运用也产生了大量的疾病相关的基因表达数据。对这类数据进行分析和处理,使人们能
对物理事件的监测型应用在无线传感器网络与信息物理融合系统中被大量的使用,随着工业技术的发展,节点配备高级的感知部件变得越来越可能,如配备照相机。然而现有的文献没有研究