论文部分内容阅读
深度学习作为大数据时代数据分析的重要手段,近些年来得到了国内外科研界的广泛关注。文本分类任务是在给定的分类体系中,按照一定的规则,将文本分到某个或几个类别中。文本分类应用场景一般包括新闻分类、情感分类、社交网站评论分类等,因此,为了实现对互联网中海量文本数据的计算,人工智能领域研究者提出具有深层网络的深度学习算法来解决文本分类问题,对于当今社会各界的科技进步具有重要意义。信息时代的迅猛发展,面对海量非结构化的文本数据,研究者和科技人员们所面临的问题不再是如何获得所需要的文本数据,而是如何在大数据背景下从海量文本数据中准确高效地获取满足需求的信息。本文梳理机器学习和深度学习在文本分类任务上的发展历史,进而引出近年来预训练微调体系结构中的BERT模型,详细介绍了BERT模型的内部机制和训练方法,进一步了解了语言模型在预训练和微调方面的多种技术方法,经过深入的研究,本文提出在BERT模型的基础上做出几点创新和改进,使得本文模型能够有效的解决BERT模型预训练方法的不足,通过一些技巧增加模型的可解释性,在下游任务针对文本分类做微调,得到面向可解释性双向编码语言模型,本文工作归纳如下:(1)因式分解参数化,本文认为,将大的词嵌入矩阵通过因式分解转化成两个小的矩阵,从而输出层的大小与词嵌入的大小作为相互独立的参数,相互之间不受制约。这种分离使得在不显著增加词嵌入大小的情况下,增大输出层大小变得更加容易。(2)平均最大池化,平均池化对邻域特征求平均值,最大池化对邻域特征取最大值,将两者结合能够更好的保留从文本中提取的特征,不同池化层会获取不同的信息,通过平均最大池化方法不仅能保留原始数据的整体特征,还能更好的保留纹理特征。(3)层级间密集连接,本文提出在不同的多头自注意力层之间增加密集残差连接,能够有效地防止神经网络的退化,同时减少参数量和计算量,具有一定的可行性,同时能够提高模型准确性。(4)新的预训练方法:句子连贯性预测,深入研究BERT模型之后,本文发现预训练阶段的两种方法Masked LM和Next Sentence Prediction是BERT预训练语言模型的基础思想,为了训练出更完善的语言模型,需要在已有的训练方法基础上做一些补充和改进,本文发现Next Sentence Prediction方法只能初步达到预测下一句的效果,有待进一步完善句子级别的预训练方法,由此本文提出了句子连贯性预测方法,训练模型使其能够在多种情况下准确地预测句子之间的关系。本文提出的以上四种改进技术,一方面降低内存消耗并提高模型的训练速度,另一方面,提高模型可解释性,使得模型更好地应用于自然语言处理任务。与原始BERT相比,本文模型的参数比BERT少,预训练阶段在遮蔽词预测和句子连贯性预测的实验结果有一定提升,微调阶段在文本分类任务上提高了分类正确率。本文还使用了L2损失,该损失集中于对句子之间的连贯性进行建模,并表明它始终可以通过多句子输入帮助下游任务。实验结果表明,本文模型在文本分类任务上得到了可观的技术成果,在IMDB数据集上文本分类正确率达到了97.90%,比BERT模型提升了0.48%,在20 News Groups数据集上文本分类正确率达到了98.20%,比BERT模型提升了0.40%。实验结果表明本文提出的面向可解释性双向编码语言模型可以有效提升预训练语言模型的性能,提高文本表示的可解释性,精简模型规模,并有效地提高了预训练速度和文本分类正确率。