基于深度神经网络的3D物体模型表示与功能学习

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:heritage102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的生活环境是一个三维的世界。为了实现人工智能(AI)的目标,使机器具有感知和理解三维世界的能力是非常重要的。近年来,三维数据采集设备的快速发展,如Li DAR、Microsoft Kinect、Intel Real Sence,促进了体感游戏、虚拟现实(VR)、增强现实(AR)、自动驾驶的应用,同时3D计算机视觉的研究被广泛关注,特别是3D点云分类和分割、3D目标检测、物体表面重建等。然而,3D物体的表示和功能学习在计算机视觉和机器人领域发展缓慢,特别是3D显著性估计、3D功能可供性学习和视觉抓取学习(Visual Grasp Learning,VGL),这些方法大多是基于传统算法,而没有用深度学习。为此,出于对什么形状定义了物体的类别的基本好奇,本研究基于三维表面重建的深度隐式表面网络,提出了隐式表面显著性网络(Implicit Surface Saliency Networks,ISSN)和对比显著性学习(Contrastive Saliency Learning,ISSN-CSL)来学习类别级形状显著性。ISSN和ISSN-CSL学习到的的形状显著性映射具有平滑性、对称性和语义代表性。为了促进三维功能可供性学习的研究,本研究提供了一个用于物体视觉功能可供性理解的大规模数据集,称为3D Affordance Net,它包含来自23个语义类别的23000个物体的18种功能可供性类型。本研究进一步设计了几种算法,并进行了实验来验证所提出数据集的有效性。对于视觉抓取学习,本研究提出了一种新颖的端到端抓取候选网络(Grasp Proposal Network,GPNet),以预测从一个未知的相机视角观察到的未见过物体的6自由度(6-DOF)抓取。本研究还贡献了一个大规模的用于6-DOF的视觉抓取学习的合成数据集,该数据集包含来自150多个类别的10000多个对象。每个物体都标注了大约50000的抓握标注,并对每个物体从500个随机相机视角渲染RGB-D图像。此外,为了缓解模拟环境和真实环境之间域差异的影响,本研究采用无监督Sim2Real域适应技术来增强GPNet,并将增强的GPNet称为GPNet++。详细的实验表明,与现有的VGL方法相比,本研究提出的GPNet和GPNet++在基于规则的评价指标、模拟抓取测试和真实机器人抓取测试都取得了最先进的性能。
其他文献
人脸识别技术在当代科技大发展的背景下,在安全、法律、监控、金融等领域有着广泛的应用。人脸活体检测任务在确保人脸识别系统的安全、可靠方面起着重要作用,近几年引起各界广泛关注。尽管现有的人脸活体检测方法在单一场景下已经取得较好的效果,但跨场景下的人脸活体检测任务仍是一大挑战。针对此问题,本文基于迁移学习的知识,从域适应和领域泛化的角度出发对提高人脸活体检测任务在未见过的场景下泛化性能进行研究,主要工作
学位
无监督域适应(UDA)旨在通过从数据有标签的源数据域迁移知识来学习数据无标签的目标数据域的模型。在传统的UDA设置中,假定有标签的源数据可用于域适应。随着人们对数据隐私的关注日益增加,无源域数据的无监督域适应作为一种新的UDA设定逐渐受到研究者的关注,该设定假定只有经过事先训练好的源域模型可供使用,而源域的数据仍然是私有的,不再参与域适应。然而,不是所有的场景都能提供一个事先训练好的源域模型,比如
学位
三维物体感知算法在家用机器人、工业制造、智慧物流等领域有着诸多应用。在杂乱室内场景由于物体间相互堆叠以及传感器成本的限制,物体在任意视角下采集的点云数据往往面临着稀疏、遮挡和噪声的问题,这会给深度神经网络的形状编码引入特征不一致性从而对算法的精度和鲁棒性造成负面影响。本文针对杂乱室内场景对三维物体感知算法中的位姿估计和点云分类问题展开研究。在物体六自由度位姿估计问题上,现有算法在面对严重遮挡及深度
学位
弧形机壳表面缺陷检测,由于其弧面特性难以成像,背景变化较大,缺陷特征复杂,在工业检测领域是一项极具挑战的技术。目前手机弧面缺陷检测在流水线上仍是采用人工质检员进行检测的方式,人工检测缺点很明显:鲁棒性差,客观性差,存在人员疲劳问题,检测结果无法形成有效数据集供后续分析。为促进工业制造的自动化和智能化,针对人工质检的缺点,本文基于图像处理、机壳分割、深度学习等方式对弧面边框缺陷智能检测系统进行研究,
学位
甲醇合成反应器是煤化工工艺中合成气合成甲醇的关键核心设备,随着工艺方案不同,目前该设备结构形式多样。径向流反应器是英国Davy甲醇合成工艺技术的成熟设备,该结构具有形式复杂,处理量大、反应效率高及结构紧凑等特点。本文通过文中论述观点希望对今后同类产品设计及制造提供借鉴。
期刊
现阶段,我国工业发展速度日益加快,对甲醇的需求量日益增多,制造企业也快速涌现出来。为了促使甲醇生产制造成本有效降低,大部分企业均会采用煤制甲醇的方法,但目前其工艺技术仍未成熟,各种工艺技术类型多种多样,其适用范围和特点各不相同,只有合理选择,才可以使甲醇品质得到保证,最大化控制生产成本。对此,主要对大型煤制甲醇的气化以及合成工艺进行了探讨,以供参考。
期刊
近年来,增加卷积神经网络的深度和宽度成为提升模型性能的一个主要方式,但随着模型越来越复杂,其面临着训练不稳定和特征冗余等问题。由于正交具有范数保持性和向量不相关性,可以降低模型训练难度和参数冗余度,其作为一种约束被广泛地运用到神经网络的优化训练中。但目前的正交约束方法多基于矩阵形式,对于卷积神经网络的高阶张量,需将其重排为二阶矩阵再优化,这一定程度上会导致空间信息损失和优化性能受限。近几年张量乘法
学位
介绍了管壳外冷-绝热复合式甲醇合成反应器在3 000 t/d大型甲醇合成装置中的应用情况。72 h装置性能考核结果表明:在生产负荷104%的条件下,粗甲醇中乙醇平均质量分数为0.045%,吨粗甲醇消耗新鲜气1 927 m~3(标态),2台甲醇合成反应器催化剂床层压降为0.193 MPa,合成回路压降0.56 MPa,汽包副产蒸汽压力和流量稳定。采用双塔并联技术,实现了管壳外冷-绝热复合式甲醇合成反
期刊
文字作为传递和承载信息的重要媒介,广泛地存在于人们的日常生活中。场景文字检测是模式识别和计算机视觉的重要研究方向之一,具有非常广阔的应用空间,它在例如教育、金融、医疗、无人驾驶和元宇宙等诸多领域中有着巨大的影响力。然而,场景文字检测依然面临着诸多挑战:一方面,场景文字容易受到光照、模糊、透视形变和杂乱的背景等表观因素的影响;另一方面,场景文字本身也是千变万化的,有着不同的长宽比、语言类型及轮廓形状
学位
认知能力是指人脑加工、储存和提取信息的能力,是人们成功完成活动最重要的心理条件。准确有效的认知能力评估,对疾病诊疗、教育评价、特殊行业人员选拔等具有重要的应用价值。虚拟现实具有高沉浸感、多感知性、强交互性等特点,为认知能力评估方法的扩展提供了新的可能。将虚拟现实技术应用于认知能力评估已成为当前的研究热点。目前认知能力评估研究中存在以下问题和难点:(1)传统认知能力评估方法的任务脱离真实生活场景,沉
学位