基于深度学习的短文本分类技术研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:long060112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或者几类的过程。短文本分类在冗余过滤、智能检索、构建索引、文本过滤等方面有重要的作用。可以方便用户快速、高效的解决问题。正因为人们对短文本分类越来越大的需求,所以如何更高效的提高短文本分类精度变成为当前面临的一大挑战。最近几年随着BERT模型的出现,NLP任务中很多其他模型解决不了的问题都得以解决,这势必对NLP发展研究起到了积极作用。BERT模型的极具灵活性,可以应对各种各样的语料库,并且为语料库提供巨大结果。BERT模型非常流行,不仅仅是在NLP领域,在其他行业领域也是深受研究者欢迎。BERT模型已经成为公认的最具影响力的预训练模型。本文通过对短文本分类相关技术以及其他知识研究,综合分析了短文本分类研究目前的难点与热点问题,深层次的分析提高分类精确度的分析。BERT模型是最近几年流行起来的机器学习模型,目前属于领先行列。它可以同时进行多种操作,例如无监督的文本分类、有监督的文本分类等。将BERT模型应用在自然语言处理中自然也是可行的。本文研究内容主要包括以下方面:1)针对目前短文本特征提取困难、短文本关键信息少、模型训练时间长、训练模型泛化能力差等问题,本文提出基于BERT模型的短文本分类技术。该模型可以系统的完成短文本分类任务,将处理完成的文本信息直接输出BERT模型,不需要进行其他操作,就可以对短文本进行分类,更加方便迅捷的实现短文本分类。本文通过和其他分类模型在相同数据集上的表现进行比对,证实BERT模型对短文本分类研究有所提高。2)针对BERT模型对短文本分类存在的不足,本文分析了支持向量机在短文本分类任务中的特性,将BERT模型和支持向量机分类器进行融合,构建S-BERT模型进一步对短文本分类精度提升,从而解决BERT模型对短文本分类任务的不足。本文在公开数据集上,通过S-BERT模型和其他分类模型(包括BERT模型)在相同数据集上进行实验对比,最终得出对BERT模型的改进确实可以提高原有BERT模型的分类精度。
其他文献
癌症标志物是体内发现的一种生物分子,它是癌症发现、预防的征兆,它的识别对癌症的预防以及治疗都有重要的意义。基因表达谱数据是一类非常重要的癌症标志物,从数万种基因表达谱数据中挖掘出不同癌症类型的标志物对于阐明癌症的形成机制、预防癌症的产生和发展都有重要意义。本文的研究分为三个方面:1.本文提出了一种数据标准化的方法。首先将原始数据进行标准化处理,将化学分子间的乘积关系转化为线性关系,将转换后的数据在
遮挡是实际生活中普遍存在的现象,被遮挡的物体会缺失部分信息丢失,严重影响着计算机对于图像的理解和分析,因此遮挡一直是阻碍着计算机视觉一些重要研究的发展。被遮挡的图像不便于我们对于图像的分析和处理,也影响了我们对于图像的目标检测与识别等研究。图像修复指复原图像中缺损位置的信息。主要是通过图像中现存信息的特征,去还原图像中的缺失部分。人脸修复作为图像修复领域重要的一个分支,在实际生活中具有重要的应用价
伴随着深度学习技术的不断更新发展,深度学习在多个领域都有广泛的应用。当前的深度神经网络模型变得更为复杂,这就意味着模型的参数量与计算量越来越大,对于部署模型所用的硬件平台要求也是愈来愈高。然而,诸如自动驾驶、遥感卫星目标检测等任务时,需要在极低的延迟下对周围的目标进行检测识别。数据必须在边缘端完成主要的计算,但由于边缘端对于所使用的硬件平台有非常严苛的性能和功耗限制。因此,在功耗和性能受限的情况下
目前数控机床大多采用多轴联动的形式进行零件加工,加工效率进一步得到了提高,广泛应用于航空航天、汽车等领域精密零件的加工。但数控机床多轴联动同时进行加工使得机床误差进行耦合,无疑会对被加工零件的精度产生影响无法满足使用要求。因此,本文旨在提出一种针对多轴数控机床平动轴三轴联动时误差情况进行测量及辨识的快速检测方法,并通过误差补偿工作以期提高多轴数控机床的加工精度。本文分别从机床误差建模、平动轴垂直度
科学技术的快速发展,使得医疗器械、航空航天、光学设备等领域的零件几何模型变得愈加复杂。近年来,随着精密测量仪器及图形处理器技术(GPU)的发展,三角网格因其快速灵活,适应性强的特点,被越来越多的应用于CAD/CAM领域。但由于三角网格模型只能输出实体模型的少量几何信息且数据分布不规则,使得数控加工过程中不能很好的对刀具姿态调节控制,所以目前面向五轴的曲面网格模型数控加工研究还不充分,大多局限于三轴
随着3D打印市场的愈加壮大,与互联网技术相结合的3D打印云服务平台也逐渐增多,规模化3D打印制造成为3D打印技术发展的必然趋势。与传统生产制造模式不同,3D打印制造具有一次成型、定制化、差异化、小批量等特点,所以任务调度对于集群式3D打印制造体系尤为重要。一个好的任务调度方法不仅能够指导打印制造活动顺利进行,更能够降低打印时间和打印成本,保证制造企业的利润和竞争力。为了寻找合理的任务调度方法,本文
随着三次工业革命的推动,全球的工业发展已经发生了翻天覆地的变化。如今我们正处在第三次工业革命向第四次工业革命的过渡阶段。在这一阶段中,现有的工业制造领域呈现出了数字化、信息化、智能化的趋势。而这种趋势的具体落实目标就是工业中的车间。针对车间的机器设备实现通信,收集设备的运作数据;针对车间的操作人员实现实时定位,操作流程的精准指导和记录;最后针对车间设备,人员以及生产过程等实现统一透明化管理。这三个
智能优化理论作为人工智能领域的重要分支,得到了广泛的研究和实际应用。其中,粒子群算法和差分进化算法作为两种代表算法,受到的关注尤为突出。但是,粒子群算法容易在进化后期丧失种群多样性,而差分进化算法经常出现早熟收敛和搜索停滞现象。为此,本文从融合两种算法优势、弥补各自不足的思路出发,在改进传统差分进化算法的基础上,提出了一种粒子群和差分进化融合算法,并将所提算法应用于焊接加工车间作业调度中,达到了良
切换系统是一类重要的混杂系统,其在各种领域的广泛应用引起了研究者的关注.目前针对切换系统已有的研究结果大多是关于线性切换系统的.此外,相对于大部分研究采用的传统时间触发机制而言,事件触发机制在保证对系统进行有效控制的同时,能节省通信资源,避免网络堵塞.本文将事件触发机制引入控制器设计中.针对几类带有时变时滞的切换系统进行了稳定性分析与控制设计.主要内容和研究成果如下:首先,本文研究了带有区间时变时
自动文本摘要技术是人们从互联网的海量数据上快速获取文本信息的有效途径之一。本文通过对自动摘要任务的研究背景调研,发现该任务在实际生产和生活中都有许多的应用场景。就目前国内外的自动文本摘要任务的现状来看,主要分为抽取式文本摘要和生成式文本摘要。相较于前者,生成式文本摘要可以生成更符合人们阅读的摘要文本,无论从摘要的语法上还是从摘要的质量上都有一定的优势。因此,本文主要研究了基于序列到序列的生成式文本