基于标签依赖信息的多标签文本分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:reemchan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和大数据时代的到来,人们被大量的信息充斥着,其中文本信息是人们接触最多也是最杂的一类信息,在很多场景下文本对象包含多义性,例如新闻、评论、博客等。多标签文本分类旨在为文本对象赋予其最相关的标签子集,可以帮助人们快速地对文本整理归档以及检索查阅。本文旨在跟进多标签文本分类领域的前沿工作,试图通过挖掘标签依赖信息来解决该领域目前仍然存在的一些问题和挑战:一方面,现有的模型方法或者没有考虑到标签与标签之间的相关性,或者仅仅考虑到低阶的关系,或者建模了高阶关系但具体做法缺乏合理性和可行性;另一方面,现有的多标签注意力机制在学习单词重要性权重时过度依赖于单个单词表示,可能导致单词与标签错误匹配等问题。本文主要从这两方面考虑来展开相关的研究工作。本文的主要工作有:(1)针对现有模型未合理地建模标签与标签之间关系的问题,基于标签共现矩阵改进了原始损失函数,设计了一种正则项以通过损失函数挖掘标签与标签之间的依赖关系,实验结果表明该方法在micro-F1值等主要指标上超过了现有的模型,进一步分析表明其可以利用标签依赖来正则化所提出的模型,从而提升了模型的泛化能力。(2)针对标签依赖建模更深层次的标签关系挖掘与标签表示学习,提出利用图卷积和标签图对输出层权重更新,实验结果表明该方法进一步提升了模型micro-F1值,进一步分析表明其在牺牲了一点在频繁标签上预测精度的情况下,大幅提升了其对稀有标签的预测能力。(3)针对传统多标签注意力机制过于依赖单个单词表示的问题,设计了一种层级注意力机制以利用全局语义来引导单词权重的学习,实验结果表明该方法进一步提升了模型micro-F1值,进一步分析表明其考虑到了标签与文档特征之间更加细致的依赖信息,并且其对频繁标签作用较为明显。
其他文献
在化石能源日趋减少的情况下,太阳能作为一种清洁无污染的能源一直被我们所使用,提高太阳能的使用利用率是我们当下需要解决的重要问题。科学家研究了一系列将太阳能转化为化
当化工生产过程出现异常时,通过有效的过程监测和故障诊断模型可以准确迅速地检测出故障并确定其类型,为操作人员提供及时可靠的参考。现代流程工业系统中,生产环节之间联系
米氏酸是一类具有独特结构的有机合成中间体,由于其具有较强的亲电性,而且还可作为亲核试剂参与反应,使得米氏酸在有机合成中得到广泛的应用。米氏酸参与的分子内Friedel-Cra
截止至2014年12月31日,在我国的能源结构中火力发电仍占据总装机量的67.41%,所以,作为能够快速高效提升我国火力发电效率的直接途径,提升超临界机组的蒸汽参数这一技术手段具
在社会飞速发展、社会公众需求结构升级、移动互联网改变公众通讯生活方式的大背景下,近年来我国社会传统安全与非传统安全等社会安全领域事件的多发,让社会公众对安全资讯获
如今神经网络发展迅速,相关的机器学习任务已经广泛应用到了生产生活的方方面面。由于神经网络结构复杂,神经元数量庞大,其中能记忆很多信息,包括正常的训练信息或者恶意嵌入
自20世纪80年代以来,人类活动输入到流域生态系统中的氮磷营养盐急剧增长,造成湖泊氮磷浓度持续上升。本研究选择洞庭湖流域为研究区域,应用美国康奈尔大学开发的人类活动净氮、磷输入(Net Anthropogenic Nitrogen Input,NANI;Net Anthropogenic Phosphorus Input,NAPI)模型,对该流域的氮、磷输入进行定量化研究,估算了该流域人类活动氮磷
目标检测作为计算机视觉的基本技术,旨在对图像中预定义目标类的所有实例进行定位和分类。当前,虽然一些主流的目标检测算法在检测的精度和速度上取得了较好成果,但依然存在
多传感器管理是依据不同的优化准则,对传感器资源进行合理分配,满足对目标跟踪的任务需求。在传感器探测系统中,能够实时调度的传感器资源往往是有限的,同时,受传感器探测能
手指静脉识别系统的性能非常依赖于采集图像的质量,但是采集设备在成像和传输时产生的各类噪声,以及开放式使用场景下设备镜面上存在脏污、用户手指存在蜕皮情况等因素都会对