论文部分内容阅读
近年来,自动驾驶技术飞速发展,但自动驾驶系统目前仍存在较大不稳定性,需要通过海量的驾驶场景库数据来构建虚拟场景,以进行全面严格的测试评价。业内各公司机构受限于数据采集、维护成本较高,缺乏一个提供统一标准数据的自动驾驶数据平台。国汽智能网联汽车研究院为此牵头业内多家公司,设计并实现了自动驾驶场景库数据系统。该系统集成了对采集数据的预处理、存储、标注和统计分析等功能,为相关算法提供训练、测试数据集,为虚拟仿真环境提供测试用例数据。本文主要分析了自动驾驶场景库数据系统的业务需求,阐述了系统数据校验提交、数据标注和数据统计分析三个功能模块的设计和实现。系统基于B/S结构模式,采用前后端分离的开发方式,分层次设计实现。数据校验提交模块负责校验采集数据的格式,对校验通过并提交的采集数据进行预处理,清洗异常值和缺失值,最后将处理后的数据整合存储。该模块基于Spark计算平台执行数据预处理和整合的计算任务,针对不同数据的特性整合FastDFS、ElasticSearch和HBase组件实现数据分布式存储。数据标注模块负责对图像、点云等数据执行目标检测、语义分割等多种标注任务,执行过程采用先算法预标注,再人工修正的方式,以减少标注人力成本。该模块使用TensorFlow Java API读取训练的pb模型,采用策略模式实现为不同算法标注任务提供对应算法预标注的服务。数据统计分析模块负责数据图表分析和语句查询功能。图表分析功能实现时,实时数据部分通过ELK架构收集日志数据处理并展示,非实时数据部分采用HBase存储、ElasticSearch索引和Vue.js框架开发交互界面的方案。语句统计功能基于Spark SQL组件读取Hive中同步的HBase数据来实现。目前,本系统三个模块基本功能均已实现,提供了对自动驾驶数据的清洗、标注、分布式存储和统计分析功能,解决了海量自动驾驶数据处理和维护方面的难题,能够输出规范标准的数据以构建虚拟仿真用例。