基于长短时记忆网络的多标签文本分类

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yy19880904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直以来都是人工智能领域的核心问题,随着文本内容的丰富,文本的语义呈现出多角度、多标签的特征,为了自动化地索引和管理这些内容,多标签文本分类问题变得重要起来。尽管文本分类技术已经得到了广泛研究,但随着标签个数的增加,多标签文本分类问题的复杂程度会指数增长,以至于传统技术无法很好地满足需求。因此,本文针对多标签文本分类问题开展了研究,主要工作如下:(1)本文分析了传统算法的缺陷,提出了基于词向量的层次化长短时记忆网络模型,分别在句子和文档层面对文本进行建模,从而得到整个文档的向量化表达。(2)在所提出模型的基础上,本文提出了两个对文本进行多标签分类的策略。一个基于多项逻辑回归对标签进行排序,再利用动态阈值调整技术得到预测结果;另一个利用了标签之间的结构特征构建了一棵标签树,训练了多个分类器在标签树上进行联合预测,还提出了多个联合预测的准则。(3)在纽约时报的新闻数据集上,文本设计了多个对比实验将算法与基准模型在多个指标上进行了对比。除此之外,本文还设计了多个实验探究模型在标签树上进行联合预测时,不同预测准则对模型性能的影响。本文的主要贡献有:(1)结合词向量特征和文本结构特征提出了层次化长短时记忆网络来学习文档的向量化表达,并结合多项逻辑回归和基于最小二乘法的动态阈值调整技术对标签进行排序和预测。实验表明此策略相对基准模型给多分类效果带来了巨大的提升(子集准确率提高38%,F1分数提高23%)。(2)合理利用了标签之间的结构特征建立了一棵标签树,对每个内部节点都训练了一个分类器,并在树中使用内部节点的分类器输出结果定义了不同的对边进行加权的方式,接着在赋权的标签树上使用A*搜索算法进行最短路径搜索来实现不同的联合预测准则。实验表明此策略在之前模型的基础上继续对多分类效果带来了显著的提升(子集准确率提高12%,F1分数提高2.5%)。
其他文献
学位
细胞生物学是生命科学领域发展迅速的前沿学科,在医药学研究及临床应用方面发挥了重要作用,与各基础学科的教学环节密切相关.教研组拟优化课程教学模式,以教学互动理论为依据
随着全球气候逐渐变暖,对于碳排放的要求也越来越高,因此实现碳的零排放是当务之急.众所周知,目前锂电是实现零排放的最佳能源,因此对于锂资源的开发也是全球人类所面临的主
期刊
概念格理论,是在形式背景中进行数据分析和规则提取的强有力工具。在应用概念格理论进行相关领域研究时首先要从所给定领域的形式背景中生成概念并建立格结构。然而在大数据集
[摘 要] 财政学课程是经济管理类专业学生完善知识结构过程中不可或缺的课程。运用案例教学,对于提升财政学教学课程效果意义重大。这就需要建立财政学案例库,制定科学的案例教学实施方案,提升教师案例教学的水平。   [关键词] 财政学;案例教学;案例教学设计   [中图分类号]G642 [文献标志码] A [文章编号] 1008-2549(2020) 10-0087-03   一
神经网络分类器在实践过程中拥有良好的性能,易于实现,对各种类型的数据拥有良好的适应能力。以神经网络科学研究成果为基础发展起来的协同神经网络模型,反映出人脑功能的若干种
很喜欢看中央电视台的“满汉全席”节目,看着同样的原材料,经过不同厨师的烹、炸、炖、炒,就变成各具特色、口味各异的珍馐。这不免让人想到,新闻写作与烹饪有着异曲同工之妙
[摘 要] 现代信息技术的发展对教学领域的影响越来越深刻,现代信息技术融于课堂教学,改革传统教学模式和方法以适应新的教学环境,有利于实现教育现代化。本文首先介绍了三个基本理论,包括多元智能理论、建构主义理论、情境认知理论;然后介绍了现代信息技术条件下课堂教学方式的特点,对现代信息技术条件下高校如何开展课堂教学改革进行了详细的描述;最后提出信息化教学过程中可能存在的问题和解决措施。本文为教师在现代信
随着遥感技术、计算机技术的不断发展,遥感技术已经在众多行业得到了非常广泛的应用。但与此同时,遥感影像分辨率不断提高给数据存储、可视化等方面带来了巨大压力,遥感影像
在许多网络中,网络的拓扑结构是不断变化的,网络中节点之间的关系也会随之发生改变,因此网络的链路预测受到人们越来越多的关注,链路预测也成为了复杂网络中的一个新兴的研究方向