标签敏感的文本分类方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:w15002554773
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中一个经典的任务,旨在为给定的文本打上特定的标签,依据标签的数量可将此任务分为单标签文本分类任务和多标签文本分类任务(允许一篇文档同时存在多个标签)。现阶段,文本分类已经有了广泛的应用包括问答、垃圾邮件检测、情感识别、新闻分类等等。为了使文本分类获得更好的效果,一个好的文本表示便尤为重要。针对当前文档,一个好的表示应该同时涵盖整篇文档的全局上下文信息以及局部判别性特征,因为前者可以从粗粒度的角度计算整体与标签的匹配程度,而后者提供特定的细粒度线索使得分类更加精细。二者综合才能进一步提升模型的表现。然而现有的文本分类方法往往只关注全局或者局部特征的挖掘,很大程度忽略了二者之间的互补效应。此外,在多标签分类任务中,标签之间相关性信息的充分挖掘与利用也是至关重要的。因此,本文针对文本分类任务,通过探索标签监督信息的利用方式,提出了两种方法来更好地表示文本和标签,从而提升下游分类任务的精度。主要工作和贡献如下:提出了对标签敏感的混合注意力模型(LAHA)。针对多标签文本分类任务,该模型同时利用文档内容信息和标签相关性信息来更好地探索二者之间的语义相关性。LAHA主要包含三个部分,第一部分通过多标签自注意力机制来计算文档中每个单词对每个标签的重要程度。第二部分同时结合标签共现信息和文档内容以在同一隐空间中建立二者的联系。第三部分通过自适应结合策略将前两部分融合来获得最终的对标签敏感的文档表示。我们使用LAHA在6个基准数据集上进行了大量的实验,并与最先进的方法进行了比较。实验结果表明,本文所提出的方法具有明显的优势。提出了对标签敏感的综合表示学习模型(La CRL)。对于给定的文档,全局上下文信息和局部细粒度特征对于最终的分类都十分重要,而先前方法大多针对一篇文档提取一个特定的表示,这样很难充分保留二者的信息。La CRL旨在同时捕获文本的全局上下文信息和局部细粒度特征,并通过联合优化策略使二者保留并互补,以此来更好地表示文本。实验结果显示,该方法在文本分类的几个基准数据集上都超过了先前的方法。
其他文献
基于人脑磁共振图像的个体认知参数定量估计一直是认知神经科学领域的一个研究热点,这类研究不仅可以探究大脑结构和功能的个体差异性,也有助于神经精神类疾病的辅助诊断与早期预警。然而目前大部分研究都是基于单标签技术而不是多标签技术,而多标签学习考虑了标签之间的相关关系,可以提供更丰富的信息,从而提高预测的准确率。目前的个体认知参数定量估计研究大多还是基于静息状态功能磁共振图像(fMRI)开展的,近期研究表
视频目标分割是指将视频序列每一帧中感兴趣的目标区域从背景中分离出来。其中,无监督视频目标分割需要在未给定任何目标信息的前提下,将特定前景目标进行分离,因此成为当前的研究热点和难点。另外,视频序列的复杂性和多变性对无监督视频目标分割的准确性提出了更高的要求。因此,如何充分发掘并有效利用视频序列中丰富的信息以实现更为准确的无监督视频目标分割具有非常重要的研究价值。本文重点研究了如何充分利用视频序列中的
前列腺癌多年居于全球男性癌症发病率的首位,随着人口老龄化进程的加快以及经济的发展,中国男性前列腺癌患者数量呈现快速增长的趋势。动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)是一种能够反映组织生理学信息的非侵入性的影像学检测手段,通过药代动力学模型的拟合可获得与组织生理特性相关的量化参数,可用于良恶性
软件可靠性指的是软件产品在规定条件下和规定时间内不引起系统失效的能力。软件可靠性预测即基于测试和运行维护期间观察和收集到的失效数据对未来软件可靠性进行预测。软件可靠性预测模型是软件可靠性预测的基础,通过对软件失效过程进行建模从而预测软件失效行为,保障软件可靠程度。随着人工智能技术的发展,深度学习模型在软件可靠性预测领域已经得到了初步应用。其中,长短期记忆(Long Short-Term Memor
CPU是电子信息技术的核心,而基于RISC-V指令集架构的CPU芯片设计越来越受到人们的重视,对该指令集架构的深入研究已然成为目前CPU芯片行业的热点,本论文主要研究了RISC-V指令集架构的结构特点,并基于SMIC 0.18 um CMOS工艺设计了一款基于RISC-V指令集的CPU芯片。本论文对CPU的系统结构进行了概述,对CPU设计中的关键部分,即流水线以及转移预测进行着重介绍,并对目前最为
推荐系统是当前缓解信息过载问题的主要手段之一。它为用户筛选掉大量冗余、不相关的数据并从中挑选出有价值的信息,这不仅大幅改善了用户体验,同时也显著地提升了企业的商业收益。协同过滤是搭建个性化推荐系统的关键技术,它着重于通过集体智慧和经验来推断用户对物品的偏好。该技术面临的主要挑战是“用户-物品”交互数据稀疏的问题。现如今社交媒体迅速发展,社交网络中流通着大量与用户兴趣偏好相关的信息。因此,用户社交链
随着互联网技术的发展,图像已经成为人们信息交流的重要媒介。图像中的文本具有精准的语义,准确的识别可以对机器视觉等领域的人工智能应用产生重要影响。尽管光学字符识别技术的研究已经取得了很大的进展,但在现实应用场景中很多情况下是比较复杂的文本图像,例如自动驾驶、盲人导航、票据自动化处理等。这些场景图像中的文本往往具有较强的不规范性,包括丰富的布局排列、干扰性的背景,手写体文本随意的书写风格、字符之间的粘
在当今的互联网时代,信息技术已经成为推动企业乃至社会发展的关键因素。数据中心作为信息技术的重要载体,其发展和创新的速度也在不断加快。面对高速发展所带来的竞争与挑战,如何以业务为导向,以技术为依托,构建数据中心一体化运维架构,实现优势资源的整合,正在成为行业发展的方向。在这过程中,知识愈发成为组织取得竞争优势的关键因素。如何管理好组织中的知识资源,构建完善的知识体系,平衡组织中的知识供应,加快组织中
癫痫是一种大脑神经细胞混乱放电而导致的一种疾病,发作时通常伴有呕吐、抽搐、短暂性失神等症状,会严重影响患者的正常生活。研究发现癫痫患者在静息态下大脑活动也会表现出异常。随着脑电/磁信号在大脑活动状态研究和神经疾病辅助分析方面应用的日渐推广,以及脑磁相比脑电具有更突出的优势,利用癫痫患者的静息态脑磁信号及高频振荡对病灶进行定位,有助于辅助临床诊断。论文基于静息状态的脑磁信号,分别从高频振荡检测和源定
随着移动通信技术的飞速发展,频谱资源的需求呈现指数级增长,猛增的频谱需求与有限频谱资源的冲突业已成为无线电发展的瓶颈。与这一瓶颈相对应的是,传统的频谱分配方式存在大量的频谱资源浪费,这就形成了频谱资源需求急剧增加与频谱资源利用率低的基本矛盾。认知无线电是有效地解决这一基本矛盾的核心技术,其首要任务是频谱感知,但是在频谱感知过程中亟待解决安全的问题,尤其是以拜占庭攻击为代表的各类攻击行为。针对认知无