计算机视觉中无监督预训练算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:nb08611033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督预训练学习致力于通过设计可适用于大规模数据学习的前置任务,从而帮助神经网络从海量未标注的数据中得到通用的表征。近年来,在计算机视觉和自然语言处理中,无监督预训练模型都取了巨大的成功。在计算机视觉中,无监督预训练模型作为一种通用的网络表征,它对下游任务中图像分类、检索、目标检测、图像分割都有着关键性的影响。大量工作表明,预训练模型的好坏往往决定着下游任务的收敛速度与准确度。对于计算机视觉的任务而言,它们通常可以分为空间位置不敏感(如图像分类、检索任务)与空间位置敏感(物体检测、分割)两大类。本论文从两类出发,总结并分析了现有的预训练算法,提出了两个新的预训练算法以提高他们在下游任务中的表现。针对空间位置不敏感的任务,预训练算法通常关注于网络的判别性。具体而言,这类算法通常针对于主干网络的表征学习。目前的算法主要基于对比学习的形式。即特征网络从大量无监督图片中,拉进相似图片之间的距离,拉远不相似图片之间的距离。由于是无监督的算法,相似图片由同一张图片通过不同的数据增强得到,而两两不同的图片之间彼此构成了负样本。这种算法虽然能很好拓展到大规模的无监督形式,但它没有办法很好的利用好已经标注或者部分标注的图像。而这种已经标注好的图像,在视觉任务中是大量存在的。因此,我们提出了一个更通用的对比学习形式,它能够兼容无监督、半监督、全监督的预训练判别网络的学习。针对空间位置敏感的任务,预训练算法通常关注于网络的空间定位能力。具体而言,这类算法通常针对于视觉网络的检测器设计。对于检测器,之前大部分工作都比较偏轻量级,可以较快的从头开始训练。而随着Detection Transformer(DETR)的提出,检测器开始走向了需要依赖更大规模、更长时间、更端到端的训练。在DETR的基础上,我们提出了一个全新的预训练算法(UP-DETR),它通过随机补丁定位任务,将目标检测、单样本目标检测、实例分割等定位相关的任务统一在一个框架下,并显著提高这些下游任务的性能。
其他文献
多目标跟踪(Multi-Object Tracking,MOT)作为计算机视觉的热门研究方向之一,在智能交通、自动驾驶、安防监控等场景有重大商业价值。然而,主流的多目标跟踪模型往往引入了大量参数,难以在移动设备上实时运行。因此,本文将提出一个可以在移动设备上实时运行的多目标跟踪模型,并针对两个关键问题进行研究:(1)目标检测作为多目标跟踪的上游任务,对跟踪效果尤为重要,跟踪模型需要在保证实时性的条
学位
本论文合成了一系列含苊醌双亚胺自由基化阴离子配体的稀土金属(Sc,Y,Lu,Gd,Dy,Tb,Nd)配合物和含苊醌双亚胺阴离子配体的稀土金属(Sc,Y,Lu)配合物。采用核磁共振氢谱、碳谱、红外光谱、紫外光谱、Evans方法及X-射线单晶衍射等测试和分析手段对一些稀土金属配合物进行了表征,并探究了以上配合物对异戊二烯的催化性能,探索该氧化还原性配体在稀土金属配合物催化异戊二烯聚合中的影响。在本论文
学位
如今,社交媒体在人们的日常生活中占据了越来越重要的位置。每天都有数以百万计的人在社交媒体上发布图片和文字来表达他们的感受和观点,尤其是在Twitter和微博等短文本社交媒体上。由于数据量巨大,人们需要一种工具来自动组织、总结并帮助人们理解这些海量信息。主题模型便是一种自动揭示文本数据中蕴含的主题的统计模型。近来,人们在社交媒体上发布文字的同时,经常会配上图片。由于图片可以为文本提供重要的补充信息来
学位
在当今社会,网络与人们生活之间的关系日渐紧密,身份认证技术越来越受到人们的重视。而口令是一种重要的身份认证技术,因其易于部署、几乎没有额外开销、轻量级等特点,得到了广泛的应用,因此口令安全成为了研究热点。口令恢复是口令安全的一个研究方向,而口令猜测方法是其重要组成部分。目前主流的口令猜测方法会先以真实口令集为训练集进行学习,然后根据学习到的规律构造猜测口令集用于口令恢复,猜测口令集中口令的次序依赖
学位
螺环氧化吲哚是有机合成中的一类重要结构单元,是构成诸多药物、天然产物及其他生物活性分子的基本结构,开发更加高效、绿色、简便的新型合成策略是手性螺环氧化吲哚类化合物研究的重要方向。基于BINOL骨架衍生的手性磷酸及手性磷酰亚胺酸类催化剂催化的不对称反应,一直以来都是有机小分子催化领域的重要组成部分。通过改变3,3’位置的取代基可以起到调节催化剂酸性以及手性空腔体积大小的作用,便于以更适合的方式实现对
学位
含氮杂环化合物在天然产物中普遍存在且在医药、农药等领域有广泛的应用。此外,三氟甲基具有亲脂性、生物相容性和代谢稳定性等生物活性,在药物化学中有着至关重要的作用。调查发现,含三氟甲基氮杂环是许多药物分子的核心结构单元。因此发展快速高效地合成含三氟甲基氮杂环化合物的方法具有十分重要的意义。相比于其它合成含氮杂环化合物的方法,自由基串联环化反应具有高原子经济性和步骤经济性的优点。本论文运用铜催化N-氰胺
学位
茂金属催化剂因其具有极高的烯烃聚合反应催化活性而在工业领域中受到了广泛关注。其中,具有桥连结构和特定对称性的茂金属催化剂表现出显著的催化丙烯立体可控聚合的活性,有着巨大的工业化和商品化的潜力。目前,多数的茂金属催化剂合成效率低,品质不稳定,生产成本居高不下,这些缺点严重制约了茂金属催化剂的工业化发展。为此,本论文针对一种具有二甲基硅桥连和噻吩并环的C2对称茂锆催化剂6,6’-二甲基硅基双(2,5-
学位
超分子化学作为一门新兴的交叉科学通过非共价相互作用将具有不同结构和功能的单元相结合来构筑动态可逆的智能复合材料,为分子机器、材料化学和生命科学的发展开辟了新的前进方向。超分子化学的蓬勃发展离不开设计合成结构新颖、性能优异的大环受体分子,柱芳烃作为一种新型的大环主体化合物,基于其富电子的刚性空腔、对称的骨架结构和优异的主客体性质构建的超分子复合体系已经广泛用于传感检测、反应催化、药物运载和智能响应等
学位
文本口令是目前应用最广泛的身份认证方式之一。随着人们安全意识的提高,长口令越来越受用户和系统管理员欢迎。口令猜测算法能有效识别弱口令,指导用户构造更安全的口令。然而目前国内外对长口令猜测算法的研究较少。因此对长口令猜测算法的研究是具有现实意义的。目前已泄露的真实口令集中,长口令的占比较低(Rockyou口令集中长度不小于12的口令占5.5%)。这约束了传统数据驱动猜测算法对长口令的猜测效率。由于可
学位
超低湿度(<250 ppm)的监测在一些重要的工业生产中发挥着极为关键的作用。对于超低湿度的检测,目前主要依靠于传统的电子传感器,但其价格十分昂贵,且使用过程中需要额外的外部电源驱动以及复杂的信号接收系统,携带不太方便,致使应用场所受限。相比之下,基于颜色可视化的比色湿度传感材料有着巨大的优势与潜力。然而,现已报道的可视化湿度检测材料/体系的检测范围绝大多数都在2500 ppm(10%RH)以上。
学位