基于BERT、RoBERTa和ALBERT的视频问答与片段定位

来源 :厦门大学 | 被引量 : 0次 | 上传用户:long96169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频问答(QA)和视频片段定位是重要的、具有挑战性的问题,因为它们需要视觉和语言理解,反映了人们通过语言互动的真实世界。推动能够“理解”视觉和语言的系统的发展,将有助于开发实际应用程序,这些应用程序可以帮助收集来自不同来源的信息和答案,并为人工神经网络突破新的开创性和挑战性的问题奠定基石。这就是我们要深入研究这个挑战性问题的原因。我们注意到最近的一个趋势,即NLP开始转向联合迁移学习与大规模目的语言模型,如BERT、RoBERTa和ALBERT。这些新模型被用于视频问答和视频片段定位。但这些新模型对视频问答和视频片段定位的真正影响仍未得到充分研究。为了开发更好的视频问答和片段定位系统,我们提出了以下两个研究问题:1.通过使用新的最先进的预先训练的机器翻译模型,微调和提取词嵌入来改进文本输入的编码,是否总是使得基于视频的QA系统获得更好的性能?2.通过使用新的最先进的预先训练的机器翻译模型,微调和提取词嵌入来改进文本输入的编码,是否总能使得视频片段定位系统得到更好的性能?为了回答这两个研究问题,我们首先研究了最近关于视频回答、视频片段定位以及预训练的翻译模型的最新文献。在此基础上,我们提出建立一个实验,比较了不同词嵌入对视频问答和视频片段定位的影响。对于视频问答,我们以TVQA+的数据集和模型为出发点。对于视频片段定位,我们以TVR的数据集和模型为起点。对于词嵌入,我们提出微调算法,在提取新的词嵌入之前,对三个最近流行的预先训练的带掩码的机器翻译模型(BERT、RoBERTa和ALBERT),进行了 0、1、3和5轮的微调。在我们的研究中,ALBERT是三种机器翻译模型中最新的模型,而且与其他两种模型相比,在大多数NLP任务上取得了更好的效果。可以自然地预计到,ALBERT的词嵌入将为视频问答和视频片段定位带来最佳效果。事实证明,在视频问答中,ALBERT的表现最好,其次是基于BERT和RoBERTa的模型,他们分别获得了 66.35%、65.89%和65.55%的精度。在此任务中,三种机器翻译模型的词嵌入之间的差异较小的。然而,当涉及到视频片段定位时,RoBERTa的性能最好,其次是ALBERT和BERT。在VCMR、SVMR和VR任务中,在大多数度量评测下会出现这种情况。在VCMR任务中,当设置为R@1、IoU为0.7时,RoBERTa、ALBERT和BERT得到最好的性能分别为2.88、2.35和1.02。我们的RoBERTa词嵌入在VCMR(R@1,IoU=0.7)任务中获得了比TVR论文中报道的先进的性能高出9.92%。当回到我们最初的研究问题,我们可以得出结论,对于视频问答和视频片段定位,新的最先进的预先训练的机器翻译模型中的词嵌入会导致更好的性能。ALBERT或RoBERTa在视频问答或视频片段定位方面的性能优于BERT。然而,来自新的最先进的预先训练的机器翻译模型的词嵌入并不总是或简单地导致更好的性能,因为没有“通用万灵”的模型。在视频问答方面,ALBERT在三种机器翻译模型中表现最好。对于视频片段定位,RoBERTa在三种机器翻译模型中表现得最好。我们假设RoBERTa在视频片段定位方面的性能优于ALBERT,因为其语言数据几乎是ALBERT的两倍,而视频片段定位任务受益于更大的语言数据。通过实验研究,我们展示了词嵌入对视频问答和视频片段定位的重要性和影响,并在不同的TVR任务获得了新的最优结果。
其他文献
碳化硅纤维具有低密度、高强度、高模量、抗氧化、耐高温以及耐腐蚀等性能,作为陶瓷基复合材料的增强相在航空航天、核能、电磁波屏蔽和先进兵器等领域被广泛应用。相比于第一代和第二代碳化硅纤维,第三代碳化硅纤维具有更好的高温稳定性,其中烧结助剂铝或硼的引入能够抑制β-SiC的晶粒长大以及促进碳化硅纤维烧结过程的致密化。本论文研究了先驱体法制备碳化硅基纳米复相陶瓷及陶瓷纤维。主要的研究结果如下:1.以苯硼酸、
学位
<正>卒中后抑郁(Post-stroke depression,PSD)是在临床明显的卒中背景下发生的抑郁,是脑血管病变最常见的精神并发症[1],主要表现是抑郁、兴趣减退、精力减退、食欲减退、睡眠障碍、自我评价低、延缓神经功能的恢复,大大降低PSD患者的生活质量,并且可能会增加残疾甚至死亡的风险,我国脑卒中患者的PSD发生率为45.79%[2],中风后第3个月症状最常见,许多因素使PSD的诊断变得
期刊
并行成像是加速磁共振成像数据采集的常用方法,可以适用于目前已有的序列且不会影响图像的对比度,同时也不会引入过多的伪影。但是,并行磁共振成像的加速倍数受线圈数目的限制,引入压缩感知中的随机采样和稀疏图像重建是加速并行成像和提高图像质量的重要手段。在快速成像中,欠采样的多通道k空间数据需要通过求解图像稀疏重建的最优化问题得到完整的磁共振图像。然而,求解这些问题的数值算法通常比较耗时,需要经过成百上千次
学位
有机发光二极管(OLEDs)是近年兴起的新型平板显示技术,具有高亮度、高效率、自发光、广视角、响应速度快和可柔性显示等优点。相比小分子OLEDs,聚合物发光二极管(PLEDs)制备工艺简单,发光材料利用率高,可大幅缩减成本,且在制作大尺寸器件上具有较大优势。然而,目前PLEDs离商业化应用仍有距离。主要由于欲实现白光发射,蓝光材料不可或缺,而与技术较为完善的红、绿光材料相比,蓝色发光层材料固有的宽
学位
黑磷(BP)作为一种新兴二维纳米材料,它具有褶皱蜂窝状的层状结构、高度各向异性的电荷传输、带隙可调等特点,引发了科学家们极大的研究热情。在过去几年中,研究人员不断探索基于BP的应用,例如场效应晶体管(FET)、电池、催化等。特别地,超高的比表面积比与丰富的吸附位点和活性位点,使BP在气体传感器领域具有巨大潜力,尤其是对NO2的检测。但是,BP在有水有氧的环境下极其容易降解,温度升高往往会加剧BP的
学位
含铁连续SiC纤维是典型的异质金属元素掺杂型SiC纤维,阐明该纤维的微观结构特征,特别是Fe对纤维高温结构演化的作用机制,对理解异质金属掺杂改性机理和优化SiC纤维的制备工艺具有指导意义。本文利用原位透射电镜、球差矫正透射电镜等先进电子显微技术,结合微区元素分析,深入解析含铁SiC纤维的相组成与界面结构,揭示Fe在高温下对纤维微观结构演变的影响规律,得到以下主要结论:(1)在原子尺度上揭示了含铁S
学位
富锂锰基正极材料因具有较高的比容量,价格便宜、相对安全等优点已成为当前锂离子电池材料研究的热点之一。通过调控材料的形貌,制备出规则多孔的微/纳米复合结构,能够增大材料的比表面积并且提升材料结构的稳定性,从而获得良好的电化学性能。本论文利用草酸盐共沉淀法合成出具有不同形貌的富锂锰基正极材料Li1.2Mn0.54Ni0.13Co0.13O2,研究了溶剂的种类与含量、反应时长、溶液浓度、锂源引入方式等合
学位
近年来,基于RDF的结构化查询语言SPARQL允许用户构造复杂的查询并访问知识库,提高了查询的精确性。然而SPARQL语言具有复杂的语法和语义,通常仅限于精通查询语言的语义Web专家使用,对于普通用户来说,知识库查询成为一项艰巨的任务。为了让更广泛的用户方便地访问知识库,前人已经研究了将更易使用的自然语言问句自动转化成SPARQL的方法。而近年来神经机器翻译模型也被用于将更自由的自然语言语句翻译为
学位
目的:探讨针式抓钳辅助单孔腹腔镜阑尾切除术的可行性与安全性。方法:回顾性收集2019年3月至2021年12月为52例患者行针式抓钳辅助单孔腹腔镜阑尾切除术的临床资料,其中男27例,女25例;8~68岁,平均(34.0±2.4)岁;急性单纯性阑尾炎11例,化脓性阑尾炎34例,坏疽穿孔2例,妊娠阑尾炎1例,慢性阑尾炎4例。脐部做16~20 mm弧形切口,穿刺10 mm Trocar作为主操作孔,一枚5
期刊
动漫形象一直以来深受大众欢迎,它以简洁的线条、鲜明的配色为特点,通过忽略细节、突出特征的艺术处理,使每一个动漫形象都有很高的辨识度。动漫形象通常是由艺术家手工绘制而成的,是具有创造性和艺术价值的作品,其中动漫人脸的刻画是最有难度的。随着深度学习的发展,研究人员相继提出了神经风格迁移、生成对抗网络等技术,并将它们应用于“动漫人脸生成”中。然而,由于真实人脸和动漫人脸之间存在较大的结构和风格差异,属于
学位