基于神经网络和领域自适应的文本分类算法研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:ww830625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是根据文本的内容为文本分配标签或类别的过程,是自然语言处理中的基本任务,具有广泛的应用。在大数据时代,从海量文本数据中分析和挖掘有用的信息,不仅可以节省人力物力,还能够帮助商家或者政府根据信息为人们提供优质的服务。因此,如何快速有效的进行文本分类具有巨大的实际意义。常用的文本分类方法主要有基于传统机器学习算法和基于深度神经网络算法。基于传统机器学习算法依赖人工设计的特征工程,具有维度高、稀疏性强、表达能力差、不能自动学习等诸多缺点。基于深度神经网络算法具有强大的特征自学习能力,在文本分类任务中取得了较大进展,但这种方法需要大量的高质量标注数据进行训练,而高质量的标注数据较为匮乏且需要耗费大量的人力和时间。另一方面,由于文本分类是领域依赖任务,即在不同领域的人们往往使用不同的表达方式和词汇,甚至不同领域的相同词汇传递不同的语义,导致在一个领域训练的模型用于其他领域时泛化性能较差。因此,研究人员考虑如何利用其他大量带标注数据的相关领域来训练神经网络模型,然后用于带有少量标注或不带标注的目标域数据集上依旧表现良好。研究者称之为领域自适应问题,主要致力于将其他领域的知识迁移到目标域来缓解标注数据不足的问题同时增加模型的泛化性。本文针对现有的文本分类算法和领域自适应任务进行了探索和研究,具体研究内容如下:(1)提出了一种基于字词联合表示的Attention-RNN文本分类模型。由于当前大多数文本分类算法以单个词为基本单元作为模型的输入来捕获单词间的语义规则,但若语料中出现未知或稀有词汇时,模型会丢失一些语义信息。针对该问题,提出了一种基于字词联合表示的Attention-RNN文本分类模型,结合了字符向量和词向量的优点。首先使用卷积神经网络(CNN)对每个词所组成的字符进行编码获取字符向量,将字符向量与词向量进行拼接,然后利用双向门控循环单元(BGRU)提取文本中的上下文依赖关系,最后结合注意力机制(Attention)捕获文本中的重要特征。(2)提出了基于相关对齐和注意力机制的无监督域适应模型。由于并不是源域中所有的特征都可以迁移,当对齐了不可迁移的特征时,可能会引发负迁移。本文提出了基于相关对齐和注意力机制的无监督域适应模型,引入注意力机制,自动挑选出源域中对目标域有利的特征,减少不相关的源域信息的干扰,然后使用相关对齐算法来缩小源域与目标域的分布差异。(3)提出了基于对抗域适应和相关对齐算法的跨域情感分类模型。由于大多数跨域情感分类方法旨在提取领域无关的特征,而忽略了领域特有的信息。本文提出了基于对抗域适应和相关对齐算法的跨域情感分类模型,可以同时提取源域和目标域中领域无关的特征和领域特有的特征。其中领域无关的特征的获取利用了对抗学习的思想,设置了一个公共特征提取器和一个域判别器,将特征提取器和域判别器进行对抗训练,域判别器用于分辨特征来自源域还是目标域,而特征提取器尽可能的“欺骗”判别器使其判别不出样本来自哪个域,以此将源域和目标域中的特征进行对齐。此外,在训练过程中,源域分类器中加入了目标域信息,增强了源域分类器在目标域数据集上的泛化性。
其他文献
随着无线通信网络规模与移动业务的不断增加,导致无线网络干扰问题越发严重,目前干扰已成为限制移动通信网络性能质量的重要因素。由于干扰的类型多种多样,尤其是外部干扰其
随着移动通信和无线传感器网络技术的发展,基于位置的服务备受人们青睐。目前在室外定位领域,全球导航卫星系统应用广泛,不仅无需通视、观察时间短,而且定位精度高。然而,受
刀具在金属切削加工过程中不断产生磨损,刀具的磨损会直接影响到加工精度和加工质量,因此开展在机监测刀具磨损情况保证零件的加工质量的研究具有较高的实用性和社会经济价值
近年来随着中国高速铁路网的扩建与高速铁路出行服务质量的提升,高速列车已经成为中国最主要的出行方式之一。预计到2025年,全国铁路网里程将长达17.5万公里,其中高速铁路占总长度20%以上,将会覆盖超过80%的大城市。高速度、高密度的高铁运行方式给铁路运输组织带来了巨大的挑战。高速行驶的列车在运行过程中不可避免地会受到各种因素的干扰,最终导致列车不能按照图定计划准时到达,产生晚点。晚点不仅会影响本列
牛病毒性腹泻病毒(BVDV)是一种有囊膜的单链RNA病毒,属于瘟病毒属黄病毒科。BVDV在牛中引起许多疾病,包括腹泻,粘膜病,持续感染,出血综合征以及生殖和呼吸疾病,导致养牛业的巨
藏族人民在长期的生产及各种实践的过程中,形成了藏医药学,它对藏族人民的生产、生活和健康起着重要的作用。藏医药学有着系统的理论知识、独特的处方及特殊的临床诊疗效果。
作为医学图像处理的两项关键技术,医学图像配准和分割被广泛应用于临床诊断、精准医疗、术后评估等多个领域。然而在实际应用中,受目标个体结构的复杂特性以及医学成像方式多
随着工业互联网技术不断发展,大数据和语义Web在工业设备能耗数据分析方面已被广泛应用。但工业设备数据处理还存在诸多问题:缺乏多功能数据分析平台、数据和信息管理复杂度
【目的】探讨涎腺阻塞性疾病:下颌下腺导管结石和慢性阻塞性腮腺炎(chronic obstructive parotitis,COP)导管造影锥形束CT(Cone Beam CT,CBCT)成像特点,与传统成像技术如咬合
目的:探讨胆管癌(CCA)、正常胆管上皮组织中PIWIL2、CyclinD1表达程度,分析两者与CCA临床各病理参数的关系并进一步评估两种蛋白在CCA发生、发展过程中是否有协同关系及其与患者预后的相关性和临床意义。方法:收集2014年1月-2017年1月于内蒙古自治区人民医院肝胆胰脾外科行手术治疗的原发性CCA(术中冰冻确诊)患者的存档石蜡包埋组织蜡块40例作为实验组,对照组选取同期因良性胆道系统