【摘 要】
:
自然语言处理技术诞生于上世纪50年代,随着时间的推移,先后经历了基于规则的方法、基于统计的方法以及近十五年来基于机器学习和深度学习方法的迭代更新,几年前伴随着BERT的呱呱坠地又掀起了一轮新的研究热潮。文本分类是自然语言处理中的一项重要任务,它的核心是从文本中抽取出能够体现文本特点的关键特征,寻找特征到类别之间的映射。近年来,另一种基于图结构数据的文本建模思想不断的发展壮大。与BERT不同,图神经
论文部分内容阅读
自然语言处理技术诞生于上世纪50年代,随着时间的推移,先后经历了基于规则的方法、基于统计的方法以及近十五年来基于机器学习和深度学习方法的迭代更新,几年前伴随着BERT的呱呱坠地又掀起了一轮新的研究热潮。文本分类是自然语言处理中的一项重要任务,它的核心是从文本中抽取出能够体现文本特点的关键特征,寻找特征到类别之间的映射。近年来,另一种基于图结构数据的文本建模思想不断的发展壮大。与BERT不同,图神经网络是一种基于图的深度学习网络,可以通过邻域节点之间的消息聚合捕获图中的依赖关系,弥补了传统深度学习网络无法处理图结构数据的问题,也被越来越多应用于文本分类任务中。目前关于图网络的文本分类方法仍然存在许多问题,基于全局图的图卷积神经网络方法无法引入文本中蕴含的时间序列信息,基于子图的图神经网络方法无法为同一个词在不同句子中赋予不同的表示。此外,虽然Bertology家族在大部分情况下都能取得较为不错的成绩,但是在对文本图结构信息捕获上仍有不足。这些问题很大程度的影响了文本分类的效果。针对以上问题,本文拟展开如下研究:1)针对基于全局图的图卷积神经网络方法无法引入时间序列信息的问题,本文提出了基于BiLSTM-GCN的文本分类模型,该模型首先使用双向的LSTM网络获取到蕴含时间序列信息的词表示和文本表示,然后通过词与词的共现关系与词与文档的TF-IDF值来构建全局文本图,最后通过两层的图卷积神经网络,实现了对文本的分类。在多个文本分类测试数据集上,BiLSTM-GCN模型相比基线模型有显著提升,准确率上提升了0.56%,F1值上提升了1.13%。同时,本文对比了不同模型的参数量,并讨论了词向量维度,是否使用词干算法等对模型的分类效果的影响。2)针对基于子图的图神经网络方法中同一个词在不同句子无法获取不同的表示,以及邻域节点信息聚合方式单一的问题,本文提出了基于图神经网络和微调BERT的文本分类模型,首先,通过微调BERT获取到文本的向量表示,然后在原有的图神经网络基础上,本文提出了基于词权重池化的消息传播方法,并将文本的向量表示融入到图神经网络中,最终实现文本分类。多个测试数据集上的实验结果表明,我们的模型能学习到更丰富的文本特征,相比于基线模型,准确率提升了1.98%,F1值提升了2.93%。此外,本文通过实验讨论了不同维度的词向量,不同窗口等对模型分类性能的影响。
其他文献
中国的文化历史悠久,影响深远。随着计算机技术的进步,数字媒体艺术设计的发展,开始有越来越多的人关注中国文化,并把中国元素应用于数字媒体艺术设计中。本文主旨在于探讨数字媒体艺术设计中中国元素的实际应用,文章首先介绍了数字媒体的含义以及中国元素在数字媒体艺术设计中美学的应用价值;其次介绍了数字媒体艺术设计中中国元素的实际应用;最后文章指出了目前数字媒体艺术设计中中国元素应用存在的不足之处,并展望了媒体
社会支配倾向反映了在一个有等级分层的群体中,个体对优越和支配地位的渴望程度,它影响着个人在社会中对他人的态度和行为。高社会支配者通常会表现出优越、支配、渴望比他人拥有更高的社会地位和权力,而低社会支配者则相反。但是大学生社会支配倾向和心理疾病之间的潜在关系研究不多。动物模型研究结果表明,形成一个支配-从属群体使得所有个体,尤其是从属动物产生了不可避免的社会应激反应和行为障碍,但对支配动物的影响及其
随着我国教育体制的改革,《普通高中数学课程标准(2017年版)》明确提出:数学教育承载着落实立德树人根本任务、发展素质教育的功能,高中数学课程面向的是全体学生,实现“人人都能获得良好的数学教育,不同的人在数学上得到不同的发展”。然而,每个班级总有一部分学生的数学学业成就普遍低于同年级的平均水平,数学学习困难,即使他们身处较好的学习环境,但自身在数学学习上的发展举步维艰,他们被称为“数困生”。因此,
壁画是我国文化遗产的重要组成部分。随着时间的流逝,受自然环境影响,古代壁画出现了多种多样的病害。病害标注是对壁画出现病害位置、大小的记录,是壁画状态调查和保护修复的基础,在保护文物中起着重要作用。颜料层脱落是壁画病害中较为典型的一种。目前,壁画的颜料层脱落病害标注主要通过人工标注或结合机器学习算法进行交互式标注,前者耗时耗力,后者准确度有待提高。同时,现有标记方法主要是基于人眼目视在一般数码相机采
文物体现了中华民族不同时期的发展与变化,是五千年以来人类劳动和智慧的结晶。但是由于风雨的侵蚀、地震的破坏、战争的损毁以及人类挖掘的损坏等因素,文物出现了不同程度的残缺。所以对文物进行数字化保护,能够在研究其历史价值和文化价值的同时,不再对其进行二次损坏。但是在数字化过程中,由于现有的基于扫描的和基于深度相机的数字化方法存在遮挡、人工误差、传感器分辨率限制等问题,文物会产生较大的残缺区域,所以对残缺
中国尤其陕西拥有丰富的古代绘画资源。这些古代绘画具有非常重要的艺术、科学和历史考古价值,但是它们现在生存状况十分堪忧,其中绝大部分绘画存在严重的病变、破损甚至消亡问题。破损的古代绘画严重影响了以绘画为代表的数字文化遗产鉴赏和传承效果。为了提高古代绘画数字化质量,本文将针对破损的低品质古代绘画图像,利用深度学习的理论与方法,研究对应的技术措施来重建高品质古代绘画图像。由于古代绘画图像结构复杂且样本数
习题预测任务是指利用学生历史答题数据预测学生未解答习题的正确性,它可以为学生呈现其知识掌握状态,方便学生查漏补缺;习题预测任务也可以帮助教师个性化教学,实现因材施教。本文将学生作答的习题分为“练习习题”与“考试习题”。“练习习题”是指学生平时学习过程中,为提高知识状态,自主练习的习题。“考试习题”是指在学期测验时,所有学生被要求在规定时间内完成考试所解答的习题。在学生自主学习过程中,由于“练习习题
在推动边疆民族地区高质量发展上闯出新路子在服务和融入新发展格局上展现新作为在推动绿色发展上迈出新步伐在巩固发展民族团结、社会稳定、边疆安宁上彰显新担当凝心聚力建设新时代中国特色社会主义壮美广西,是习近平总书记为新时代广西发展擘画的宏伟蓝图。我们把深刻领会“两个确立”的决定性意义切实转化为坚决做到“两个维护”的高度自觉,
鬼成像作为一种新型成像方式,利用了光场的二阶关联特性计算出目标图像。由于这一特性,与传统成像方式相比,它可以实现在雨雪雾霾等较差的光学环境中抗散射成像,且抗噪性强。因此,在一些特定场景下,鬼成像比传统成像更具优势。然而鬼成像普遍存在的问题是其成像质量与采样次数成正相关,高质量的成像效果意味着极大的时间成本,本文从原理出发,利用深度学习方法从两个方向优化了计算鬼成像系统的性能。首先,针对利用计算鬼成
人体姿态估计是研究定位图像或视频中人的关键点(关节点),并连接相邻关联关键点的技术。姿态多样、光照变化和环境遮挡等是影响人体姿态估计精度的主要因素。提高人体姿态估计质量在实践中有迫切的应用需要。本文重点围绕基于深度学习的复杂人体姿态估计问题展开研究。在深入研究现有基于深度学习的人体姿态估计方法的基础上,提出一个新的关键点关联约束的复杂人体姿态估计网络KACNet。该网络充分考虑了人体相邻关键点之间