论文部分内容阅读
多语种交互是自然语言处理的重要研究方向,对不同语言下的数据进行分析和融合变得越来越不可或缺。已有文本分类器的规则大多数都是针对一种语言训练的,在转换语言领域的时候,分类器往往需要用新的规则来适应不同语种的数据集,因此对多语种文本分类的研究和应用具有重要的价值。本学位论文针对中、英、韩三国语言表述的科技文献摘要,研究多语种短文本分类问题,采用多语种文本特征的转换和融合策略解决分类器在不同语言中的领域适应性问题,并利用深度学习策略提高分类器的精度,为多语种信息处理提供基础依据。首先,收集来自多国语文献管理系统项目的科技文献摘要9万余篇,构成了由中英韩三种语言组成的平行语料库。科技文献的摘要大多在一百字到三百字不等,它的特点是术语居多且分类界限模糊,仅凭词语特征与现有的概率统计模型很难对其进行准确分类。本学位论文借助深度学习方法解决了的语义标识问题。其次,使用统计方法学习不同语言空间下特征之间的相互联系,以获得语言之间的自联想记忆关系。根据自联想记忆关系扩充单语种文本数据,使所有数据都可以完整地表示在多语种模型空间中。最后,利用卷积神经网络的局部感知性和权值共享理论,融合自联想记忆模型下的复杂语义表达,从而获得不同长度的短语融合特征。利用深度神经网络学习到任意语种语义的高层特征致密组合,并且输出分类预测。在扩展的卷积神经网络模型下,分类精度得到有效提升。文本提出的方法极大地降低了多语种文本对平行语料库的依赖程度,测试数据可以是训练集中包含的任意语种的文本。通过实验证明,本文提出的融合自联想记忆的卷积神经网络多语种文本分类与其他经典的模型相比,分类精确度提高了 2到6个百分点。另外,此模型还适用于跨语言情感语料正负面情感分类,实验效果明显优于现有的其他算法,这证明此模型对评论类型的文本语料也具有非常好的鲁棒性。