面向可解释性双向编码语言模型的文本分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:guohiahong9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习作为大数据时代数据分析的重要手段,近些年来得到了国内外科研界的广泛关注。文本分类任务是在给定的分类体系中,按照一定的规则,将文本分到某个或几个类别中。文本分类应用场景一般包括新闻分类、情感分类、社交网站评论分类等,因此,为了实现对互联网中海量文本数据的计算,人工智能领域研究者提出具有深层网络的深度学习算法来解决文本分类问题,对于当今社会各界的科技进步具有重要意义。信息时代的迅猛发展,面对海量非结构化的文本数据,研究者和科技人员们所面临的问题不再是如何获得所需要的文本数据,而是如何在大数据背景下从海量文本数据中准确高效地获取满足需求的信息。本文梳理机器学习和深度学习在文本分类任务上的发展历史,进而引出近年来预训练微调体系结构中的BERT模型,详细介绍了BERT模型的内部机制和训练方法,进一步了解了语言模型在预训练和微调方面的多种技术方法,经过深入的研究,本文提出在BERT模型的基础上做出几点创新和改进,使得本文模型能够有效的解决BERT模型预训练方法的不足,通过一些技巧增加模型的可解释性,在下游任务针对文本分类做微调,得到面向可解释性双向编码语言模型,本文工作归纳如下:(1)因式分解参数化,本文认为,将大的词嵌入矩阵通过因式分解转化成两个小的矩阵,从而输出层的大小与词嵌入的大小作为相互独立的参数,相互之间不受制约。这种分离使得在不显著增加词嵌入大小的情况下,增大输出层大小变得更加容易。(2)平均最大池化,平均池化对邻域特征求平均值,最大池化对邻域特征取最大值,将两者结合能够更好的保留从文本中提取的特征,不同池化层会获取不同的信息,通过平均最大池化方法不仅能保留原始数据的整体特征,还能更好的保留纹理特征。(3)层级间密集连接,本文提出在不同的多头自注意力层之间增加密集残差连接,能够有效地防止神经网络的退化,同时减少参数量和计算量,具有一定的可行性,同时能够提高模型准确性。(4)新的预训练方法:句子连贯性预测,深入研究BERT模型之后,本文发现预训练阶段的两种方法Masked LM和Next Sentence Prediction是BERT预训练语言模型的基础思想,为了训练出更完善的语言模型,需要在已有的训练方法基础上做一些补充和改进,本文发现Next Sentence Prediction方法只能初步达到预测下一句的效果,有待进一步完善句子级别的预训练方法,由此本文提出了句子连贯性预测方法,训练模型使其能够在多种情况下准确地预测句子之间的关系。本文提出的以上四种改进技术,一方面降低内存消耗并提高模型的训练速度,另一方面,提高模型可解释性,使得模型更好地应用于自然语言处理任务。与原始BERT相比,本文模型的参数比BERT少,预训练阶段在遮蔽词预测和句子连贯性预测的实验结果有一定提升,微调阶段在文本分类任务上提高了分类正确率。本文还使用了L2损失,该损失集中于对句子之间的连贯性进行建模,并表明它始终可以通过多句子输入帮助下游任务。实验结果表明,本文模型在文本分类任务上得到了可观的技术成果,在IMDB数据集上文本分类正确率达到了97.90%,比BERT模型提升了0.48%,在20 News Groups数据集上文本分类正确率达到了98.20%,比BERT模型提升了0.40%。实验结果表明本文提出的面向可解释性双向编码语言模型可以有效提升预训练语言模型的性能,提高文本表示的可解释性,精简模型规模,并有效地提高了预训练速度和文本分类正确率。
其他文献
《中华人民共和国民法总则》(以下简称《民法总则》)在制定的过程中,从征求意见稿到最终文本,关于第29条的内容一直摇摆不定,经过三次审议才通过最终文本,这也是新中国第一次
为了构筑具有令人满意的可见光响应,极好的氧化还原能力,高电子-空穴分离效率和稳定性的光催化剂,本文采用一种简便的超声辅助湿化学方法,通过在Bi2O3/g-C3N4表面原位沉淀Ag6
苹果树腐烂病(Apple tree valsa canker)由死体营养型真菌黑腐皮壳属Valsa mali Mayabe et Yamada引起,可致树干皮层腐烂,树势衰弱,使得苹果产量降低,品质下降,造成严重的经
中国的互联网行业是政府非常重视的行业之一。对于互联网企业来说,为了在市场中稳定立足并求得长远发展,并购是投资经营活动的重中之重。随着互联网市场的不断发展,在新的并
本文是根据笔者的毕业创作“天山新雨后——山水画创作研究”,所撰写的一篇专业型硕士毕业论文。论文总共分为四个部分,第一部分是对本课题研究意义、研究现状进行阐述。第二
随着我国高速公路建设迅猛发展和交通事业服务水平的不断提高,路面早期病害的现象也逐渐凸显,致使沥青路面的使用性能与寿命低于应有的设计水平。研究表明:水的存在是沥青路
随着等离子体技术的高速发展,等离子体技术在军事方面大展拳脚,极大促进了军事现代化、远程化、科技化发展。等离子体技术主要应用于等离子体干扰、等离子体鞘、等离子体尾迹
衡量影响力是社会影响投资领域最具挑战性的任务之一。影响测量既可以是主观的,也可以是客观的,也可以是定性的,也可以是定量的。因此,作为可靠和可验证的影响,不同于投资者
秦岭横贯中国东部,由于秦岭南北的温度气候、地形均呈现差异性变化,是中国地理上重要的南北分界线。地貌复杂、水体多样,蕴含着丰富的藻类资源。然而有关这一地区硅藻的报道
绿豆作为人们广泛食用豆,含有大量生物活性成分,具有抗氧化、抗菌、抗炎和抗肿瘤活性等功能。因此,为了揭示绿豆的抗肿瘤作用机制,本文选取绿豆多酚为研究对象,明确绿豆中多