基于深度学习的词和句子表示关键技术研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：WAYA123456

【摘要】

：

随着互联网的不断发展,每天都会生成大量的文本数据,如何使用无监督的方法处理海量的文本数据,从文本中提取出有效的语义或语法特征,是目前自然语言处理(Natural Language Pr

【作者】

：

傅群超

【出处】

：

北京邮电大学

【发表日期】

：

2020年01期

【关键词】

：

深度学习无监督词表示句子表示半监督

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的不断发展,每天都会生成大量的文本数据,如何使用无监督的方法处理海量的文本数据,从文本中提取出有效的语义或语法特征,是目前自然语言处理(Natural Language Processing,NLP)领域的研究热点。文本表示研究正是为了实现这个目标,无监督的文本表示可以为下游的自然语言处理任务提供低维稠密的特征向量,从而缓解了维数爆炸或数据稀疏对下游任务的影响,同时文本表示作为正则化策略可以有效提高自然语言处理算法的泛化性能。近年来,随着硬件计算能力的不断提高和模型优化方法的不断改进,深度学习方法逐渐成为人工智能领域的主流,在图像、语音、自然语言处理等研究方面都取得了领先的结果。本文着重研究基于深度学习的文本表示相关内容,分别对词表示、句子表示等内容进行研究。本文从词和句子两个层面对文本表示进行系统的总结分析,并提出自己的表示方法。主要研究内容如下。1.基于领域关键词的词向量评估方法。本文针对词向量表示技术的不足,提出基于领域关键词的词向量评估方法降低此不足对下游任务的影响。首先通过无监督方法提取出任务相关领域关键词,然后根据领域关键词的词向量计算得分,判断词向量是否适用于该任务。除此之外,本文提出的评估方法还解决了传统评估方法,如基于语义相似度的评估方法,具有的高度依赖人工标注数据集、与任务无关以及无法区分多义词这个三个缺点。本方法在保留了内部评估方法计算开销小的优点的同时解决了上述三个问题。实验室部分,首先在语义相似任务上证明本文提出的方法也能判断一个词向量是否正确抓取了相似词对的语义,可以代替用人工标注的数据集来评估词向量的性能。其次,使用分学科领域的托福文本分类数据集验证本文评估方法是否与下游任务之间相关,评估得分和实际分类准确率的Pearson相关系数达0.795,证明提出的评估方法和实际下游任务的性能有强相关性。2.基于双向Transformer语言模型的动态上下文词向量及应用。本文针对词向量表示技术的不足,研究了基于语言模型的动态上下文词向量表示技术。提出了基于双向Transformer语言模型的动态上下文词向量模型。并针对文本分类任务,使用多探测任务引入更多有助于文本分类的语言特征。结合两者共同提升文本分类任务的性能。该应用属于半监督模型,通过在一个大的原始语料上无监督预训练语言模型,学习通用的文本表示,然后用于下游文本分类任务进行有监督的训练。在语言模型部分,使用了双向Transformer训练语言模型,提升语言模型运行效率,并使用设计的多探测任务fine-tune语言模型,调整语言模型抓取的文本表示使之更适用于文本分类任务。在下游文本分类器训练中,引入预训练好的语言模型。在模型训练过程中采用了分层优化法和逐级解冻法,加快模型训练速度并且防止过拟合发生。在实验部分,使用情感分析、问题分类和主题分类这3类共6个文本分类数据集上验证模型,分类性能均取得一定程度的提升,尤其在小样本数据集上取得有效的提升。3.改进Attention机制用于学习通用句子向量。本文针对通用的句子表示,提出了一个改进Attention机制的编码器-解码器的通用句子编码表示方法,用于学习分布式的句子表示,并能直接用于其他的自然语言处理任务。使用卷积神经网络作为句子编码器,将输入句子映射为一个固定维度的低维向量,然后输入到循环神经网络句子解码器,将该向量解码成一个句子。受词向量语言学特性启发,向量的不同维度能够对应到不同的语言学特征。由于模型编码器的输出变为了一维向量,不能使用注意力机制,所以提出了一种新的注意力机制,优化句子向量每一个维度特征。本模型使用卷积神经网络作为句子编码器提高句子编码运算效率,在实验部分,预先在一个大的原始数据集上训练模型,得到通用的句子表示编码器。然后在文本分类任务,复述检测任务和语义相关性检测任务共7个数据集上进行实验,实验结果均有提升,表明通用句子编码器能提出有效的特征,并适用于多种任务。

其他文献

制约我国企业债券市场发展的因素及对策

加大直接融资比例，大力发展我国债券市场，是推进资本市场改革开放和稳定发展的重要举措。作为直接融资重要形式之一的债券融资已成为当代西方发达国家最主要的外源融资形式，而我

期刊

企业融资企业债券债券市场

用OBS远震接收函数方法研究西南印度洋中脊深部结构及洋脊-热点相互作用

通过数值模拟分析了海底地震仪(OBS)远震数据求取接收函数的可能性和局限性,探讨了海水多次波和沉积层对求取接收函数的影响,并解决了这两个难题。同时,使用2011年在南海西南

学位

西南印度洋中脊莫霍面转换带地幔温度异常离轴热点-洋脊相互作用OBS接收函数

玉屏风散调控髓系来源抑制性细胞重塑肺癌免疫微环境的分子机制研究

目的:观察玉屏风散对Lewis肺癌荷瘤鼠抑瘤及髓源抑制性细胞、T淋巴细胞的调节作用,从整体、细胞、分子水平来阐述玉屏风散调节免疫和抑瘤可能的作用机制。方法:体内实验:1.模

学位

中药玉屏风散肺癌Lewis肺癌免疫髓源抑制性细胞T淋巴细胞

顽固性高血压病35例病因分析及治疗体会

目的分析顽固性高血压的病因及治疗方法。方法 35例顽固性高血压病患者,分析原因后对症治疗,观察治疗效果。结果 35例顽固性高血压病患者中,5例继发性高血压病患者转外科及上

期刊

顽固性高血压病病因治疗

不同降雨量对GPS测量影响实验研究

开展了不同降雨量对GPS测量影响分析的实验,通过数据预分析发现,降雨量与GPS测量多路径效应的相关性较弱,影响较小,降雨量越大,周跳越严重。运用GAMIT软件在相同策略下对多天

期刊

降雨量GPSTEQCGAMIT

用改性环氧胶泥修复压缩机缸筒

采用改性环氧铁粉胶泥对焦炉压缩机气缸简进行修补，从分子结构、机理、境科和表面状态等方面作了分析。应用表明，改性后的环氧胶泥扩大了应用领域，提高了耐温、耐磨性能和维修效

期刊

改性环氧铁粉表面处理Epoxy resin Iron powder Surface treatment

董事来源异质性、投融资效率及风险承担

自党的十八大进一步提出中国经济转型的要求以来,我国经济结构调整升级不断加快,发展方式取得重大突破,取得了来之不易的成果。但当前中国经济仍存在较大的转型压力,企业较多

学位

董事来源异质性投资效率融资效率风险承担水平企业价值

工程建设项目招投标程序管理初探

在当前阶段,工程建设项目的招投标管理过程中受到其他因素的影响,存在不同程度的问题,根据项目的管控要求可知,如何实施创新是关键。在工程建设项目的招投标阶段,如何进行招

期刊

工程建设项目招投标程序管理

基于深度学习的词和句子表示关键技术研究

其他学术论文