【摘 要】
:
随着人工智能技术的革新、硬件技术的发展以及三维扫描技术的成熟,3D计算机视觉逐渐成为一个热门的研究方向。点云是3D计算机视觉中最常用的一种数据类型,其包含丰富的语义信息,具有海量、高精度和高密度等特性。点云已被广泛应用于自动驾驶、机器人感知、三维场景重构、AR/VR以及遥感测绘等众多领域。近年来,随着深度学习技术的兴起,基于深度学习的三维点云感知受到研究者们广泛关注,深度学习算法无论是在精度上还是
论文部分内容阅读
随着人工智能技术的革新、硬件技术的发展以及三维扫描技术的成熟,3D计算机视觉逐渐成为一个热门的研究方向。点云是3D计算机视觉中最常用的一种数据类型,其包含丰富的语义信息,具有海量、高精度和高密度等特性。点云已被广泛应用于自动驾驶、机器人感知、三维场景重构、AR/VR以及遥感测绘等众多领域。近年来,随着深度学习技术的兴起,基于深度学习的三维点云感知受到研究者们广泛关注,深度学习算法无论是在精度上还是算法鲁棒性方面相较于传统算法都具有很大的优势。在点云感知领域,点云的分类与分割是非常关键的研究问题,近年来有大量相关的研究工作被提出。但由于点云具有无序性、非结构化、不规则等特性,使得利用深度学习实现三维点云感知面临着不少难点和挑战,本文在参考大量文献基础上,以现有的基于深度学习的三维点云分类与分割算法为基础,提出了两种改进后的网络模型:1)结合图卷积和注意力机制的三维点云分类与分割模型。针对Point Net网络没有考虑点云局部信息的缺陷,在原网络中嵌入KNN图卷积层提取点云的局部特征,加强点云的局部表示。并借鉴图像中注意力机制思想,对点云全局特征进行注意力操作,以减少由于最大池化所带来的特征损失问题。2)具有方向和尺度感知的多层级三维点云分类与分割模型。针对Point Net++网络在构建点云的局部邻域时未考虑到点与点之间的方向信息这一局限,提出了八方向卷积模块并嵌入到原网络中,通过该模块可以对点空间中八个方向的邻近点进行卷积,同时自适应地选择合适的局部邻域大小,以进一步优化点云的局部特征提取。为了验证以上两种模型效果,本文在领域内广泛使用的Model Net40、Shape Net Parts、S3DIS和Scan Net几个数据集上进行了仿真实验,并与主流的深度学习网络,如Point Net、Point Net++和Point CNN等多种模型进行结果对比,通过实验证明了本文提出的两种网络模型提升了三维点云分类与分割任务的精度和鲁棒性。此外,本文最后也分析了两种模型的不足,为进一步改善其性能提供了一些想法,并提出了展望。
其他文献
近年来,随着消费电子的高速发展,越来越多的厂商关注起了3D成像技术。特别是苹果公司的iphone X推出的智能3D人脸识别技术掀起了各大厂商对3D成像技术的研究热潮。相位式飞行时间(Time-Of-Flight,TOF)成像技术是一种比较受人关注的新兴3D成像技术。目前在自动驾驶,机器人视觉,虚拟现实,人工智能,3D建模等领域都有着广泛的应用,因其高分辨率,较高的精度,较快的成像速度极大的促进了相
人工耳蜗(Cochlear implant,CI)是一种能够帮助重度听力障碍患者重新恢复部分听觉感知的电子医学装置。对于正常听力者而言,能够利用双耳时间差和双耳强度差信息去辨别空间中声源的位置。然而双侧耳蜗植入者不能充分的感知ITDs信息,他们的空间听觉能力也因此受到限制。一个很重要的原因是目前大多数CI处理策略是基于对语音信号的时域包络进行信息提取的方式,摒弃了原始语音信号的时域精细结构(Tem
早期的推荐系统依赖特征工程,通过挖掘用户属性特征和物品属性特征的相关关系产生推荐,但是属性特征需要用户主动提供并且内容驳杂,具有多元异构、特征稀疏的特点,极大地限制了推荐系统的应用。相比于复杂的属性特征,用户和物品的交互行为属于用户的隐性反馈,是最容易获得并且能正面反映用户偏好的特征。将物品按照用户动作发生的时间排序,称为用户行为序列,该序列不仅包含用户的兴趣偏好而且具有连续稠密、结构简单的特点,
视频是当今社交媒体中最常见的内容之一,近年来随着短视频平台的兴起,日常视频数据的生成量呈现出爆炸式增长的趋势,这给计算机视觉系统提出了更高的信息处理要求。而对于人类视觉系统而言,实时高效地处理视觉信息是其与生俱来的能力,原因在于该系统存在一种注意机制,这种机制可以从人眼获取的大量视觉信息中筛选出最主要的一部分并将其分配给大脑优先处理,从而实现从视觉感知到理解的高速响应。视觉显著性预测则是通过计算机
短视频分享平台数据具有用户交互行为丰富、模态信息多样且全面的特点,但由于相同短视频的不同模态信息之间具有差异性,也即存在“语义鸿沟”(semantic gap)的问题,现有的推荐方法难以从短视频的模态层级进行用户兴趣建模,衡量短视频模态信息之间的差异性对用户偏好的影响。因此,本文提出结合短视频数据多模态的特点和图卷积网络(Graph Convolutional Network,GCN)的模型框架设
随着智能家居的迅速发展,基于IP网络的远程人机语音交互技术成为了行业热点,这对通信语音质量提出了更高的要求。IP网络的语音通信(voice over Internet protocol,Vo IP)经常存在丢包和带宽限制等影响语音质量的问题,这严重影响了智能语音交互系统的性能。因此,研究Vo IP通信中的语音补偿算法并改善语音质量具有实际应用价值。Opus是一种实时音频编解码器,因其功能多样性而被
在节能减排的号召下,电动汽车在市场上和新技术的研究近些年来都受到了极大的关注。车载充电机作为电动汽车电池的充电设备,其性能极大的影响着电动汽车的续航里程、充电时间等。车载充电器(OBC)需要高效率、高功率密度和宽电压输出。LLC谐振变换器具有在不同负载条件下实现零电压开关(ZVS)的优点。与传统的基波谐波近似(FHA)方法相比,基于时域模型的工作模式分析能准确描述谐振电流、电压和直流增益。本文在运
改革开放以来,我国粮食生产取得了重大成就,但农业污染和生态环境破坏等问题也愈演愈烈。当前环境资源趋紧问题对农业生产的制约性正逐渐加强,推动农业绿色化发展,破解资源环境压力,对实现我国农业可持续发展具有重要的现实意义。传统农业生产效率的测算忽略了农业生产造成的污染问题,无法充分体现出农业可持续发展的能力,农业环境技术效率将环境污染作为农业生产的一种非期望产出纳入到传统的生产率分析框架中,可以有效地衡
糖尿病是影响人类健康的常见疾病之一,其危害性大,防治效果差,备受人们关注。近年来,比化合药物具有更多优势的食源性降血糖生物活性肽被开发利用,显示出广泛的应用前景。驼乳作为一种绿色无公害的天然乳源,其营养成分独特,容易消化吸收,营养价值远高于其他动物乳。其中的蛋白质含量和种类十分丰富,还含有特殊的生物活性成分等,在防治糖尿病方面表现的格外突出。因此,本论文旨在利用木瓜蛋白酶、风味蛋白酶、复合蛋白酶和
2020年中央一号文件提出,要构建“银保担”风险共担的普惠金融服务体系。农业信贷及农业保险是确保我国农村金融普惠体系完善建立的重要政策,是保卫我国脱贫攻坚战胜利果实的重要抓手。对于农民来说,实现脱贫仅仅是奔赴小康的第一步,而如何增收致富、全面建设小康才是农村发展中的现实问题。农业信贷能发挥“造血”功能,支持农户扩大生产规模,而农业保险能防范重大风险,是国际认可的农业风险管理工具。因此,研究二者联动