论文部分内容阅读
随着互联网的不断发展,每天都会生成大量的文本数据,如何使用无监督的方法处理海量的文本数据,从文本中提取出有效的语义或语法特征,是目前自然语言处理(Natural Language Processing,NLP)领域的研究热点。文本表示研究正是为了实现这个目标,无监督的文本表示可以为下游的自然语言处理任务提供低维稠密的特征向量,从而缓解了维数爆炸或数据稀疏对下游任务的影响,同时文本表示作为正则化策略可以有效提高自然语言处理算法的泛化性能。近年来,随着硬件计算能力的不断提高和模型优化方法的不断改进,深度学习方法逐渐成为人工智能领域的主流,在图像、语音、自然语言处理等研究方面都取得了领先的结果。本文着重研究基于深度学习的文本表示相关内容,分别对词表示、句子表示等内容进行研究。本文从词和句子两个层面对文本表示进行系统的总结分析,并提出自己的表示方法。主要研究内容如下。1.基于领域关键词的词向量评估方法。本文针对词向量表示技术的不足,提出基于领域关键词的词向量评估方法降低此不足对下游任务的影响。首先通过无监督方法提取出任务相关领域关键词,然后根据领域关键词的词向量计算得分,判断词向量是否适用于该任务。除此之外,本文提出的评估方法还解决了传统评估方法,如基于语义相似度的评估方法,具有的高度依赖人工标注数据集、与任务无关以及无法区分多义词这个三个缺点。本方法在保留了内部评估方法计算开销小的优点的同时解决了上述三个问题。实验室部分,首先在语义相似任务上证明本文提出的方法也能判断一个词向量是否正确抓取了相似词对的语义,可以代替用人工标注的数据集来评估词向量的性能。其次,使用分学科领域的托福文本分类数据集验证本文评估方法是否与下游任务之间相关,评估得分和实际分类准确率的Pearson相关系数达0.795,证明提出的评估方法和实际下游任务的性能有强相关性。2.基于双向Transformer语言模型的动态上下文词向量及应用。本文针对词向量表示技术的不足,研究了基于语言模型的动态上下文词向量表示技术。提出了基于双向Transformer语言模型的动态上下文词向量模型。并针对文本分类任务,使用多探测任务引入更多有助于文本分类的语言特征。结合两者共同提升文本分类任务的性能。该应用属于半监督模型,通过在一个大的原始语料上无监督预训练语言模型,学习通用的文本表示,然后用于下游文本分类任务进行有监督的训练。在语言模型部分,使用了双向Transformer训练语言模型,提升语言模型运行效率,并使用设计的多探测任务fine-tune语言模型,调整语言模型抓取的文本表示使之更适用于文本分类任务。在下游文本分类器训练中,引入预训练好的语言模型。在模型训练过程中采用了分层优化法和逐级解冻法,加快模型训练速度并且防止过拟合发生。在实验部分,使用情感分析、问题分类和主题分类这3类共6个文本分类数据集上验证模型,分类性能均取得一定程度的提升,尤其在小样本数据集上取得有效的提升。3.改进Attention机制用于学习通用句子向量。本文针对通用的句子表示,提出了一个改进Attention机制的编码器-解码器的通用句子编码表示方法,用于学习分布式的句子表示,并能直接用于其他的自然语言处理任务。使用卷积神经网络作为句子编码器,将输入句子映射为一个固定维度的低维向量,然后输入到循环神经网络句子解码器,将该向量解码成一个句子。受词向量语言学特性启发,向量的不同维度能够对应到不同的语言学特征。由于模型编码器的输出变为了一维向量,不能使用注意力机制,所以提出了一种新的注意力机制,优化句子向量每一个维度特征。本模型使用卷积神经网络作为句子编码器提高句子编码运算效率,在实验部分,预先在一个大的原始数据集上训练模型,得到通用的句子表示编码器。然后在文本分类任务,复述检测任务和语义相关性检测任务共7个数据集上进行实验,实验结果均有提升,表明通用句子编码器能提出有效的特征,并适用于多种任务。