100K参数让模型学会识别“物体运动状态”的能力

编辑：佚名来源：财经新闻网 模型分割物体扫描识别

2023-08-02 13:01:05

财经新闻网消息：9XR财经新闻网

发布者：奥飞斯量子比特的肖潇| 公众号9XR财经新闻网

只需“100K大小的插件”就能大幅提升自动驾驶AI识别“物体运动状态”的能力！9XR财经新闻网

这是香港大学计算机视觉与机器智能实验室（CVMI Lab）和TCL AI实验室的一项新研究，论文已被CVPR 2023接收。9XR财经新闻网

该研究提出了一种名为的轻量级模型。使用只能识别物体“什么”的语义分割模型后，将让他们进一步学习识别“物体是否在移动”。9XR财经新闻网

而且任何主流模型都是即插即用的，几乎不需要额外的计算（推理时间仅增加不到0.03秒），而且目前已经开源。9XR财经新闻网

要知道，对于依靠激光雷达判断周围环境的自动驾驶系统来说，其感知能力很大程度上取决于3D点云语义分割模型的准确性和效率。9XR财经新闻网

如果想要提高模型识别“运动物体”的能力，往往需要对室外繁重的多帧点云数据进行单独提取和处理。然而，这种方法不仅需要大量的计算，而且对识别性能的提高并不多。确实是事半功倍。。9XR财经新闻网

9XR财经新闻网

相比之下，参数大小只有100K左右，却可以将主流点云分割模型的性能提升近5%。9XR财经新闻网

这到底是怎么做到的？9XR财经新闻网

100K 参数让模型学会识别“移动”物体9XR财经新闻网

首先我们要了解3D点云的两种语义分割任务，单扫描（-scan）和多扫描（multi-scan）。9XR财经新闻网

这两种方法的核心区别在于能否区分物体的运动状态。9XR财经新闻网

单扫描任务只需基于单帧点云对场景中的汽车、行人、道路等语义信息进行分割和标注。如下图所示，不同的颜色代表不同的物体，比如蓝色的点云代表汽车：9XR财经新闻网

对于多扫描任务，需要基于时间序列上的多帧点云同时分割语义信息和运动状态。9XR财经新闻网

也就是说，不仅要学会区分汽车、行人、道路，还要识别这些物体是否在移动。例如，汽车标签扩展为“移动的汽车”和“静止的汽车”，行人扩展为“移动的行人”和“静止的行人”：9XR财经新闻网

目前，自动驾驶激光雷达点云数据的处理主要是通过单扫描语义分割方法。9XR财经新闻网

虽然可以通过扩展标签、融合点云数据，直接将单扫描模型训练成多扫描模型，让AI掌握识别物体运动状态的能力，但存在两个问题：9XR财经新闻网

一是业绩成绩平平；二是融合的点云数据量大，导致模型复杂、计算时间长，这对于“与时间赛跑”的自动驾驶系统来说是不可接受的。9XR财经新闻网

为了解决这两个问题，让语义分割模型掌握快速、良好地识别“运动物体”的方法，就横空出世了。9XR财经新闻网

9XR财经新闻网

即使之前的模型只能做单扫描语义分割，但在其中添加一个不仅可以大大提高多扫描语义分割的能力，而且可以区分物体是否在“移动”，效果比其他多扫描语义分割要好。 - 扫描方法。9XR财经新闻网

那么，核心思想是什么呢？9XR财经新闻网

具体来说，该模型设计了基于 2D CNN 网络的分支 BEV。该模型可以提取点云数据转换的BEV（Bird's Eye View）表示，即自上而下的鸟瞰图。9XR财经新闻网

选择纯电动汽车有两个主要原因。9XR财经新闻网

一方面，目前的运动物体基本都是在地面上运行的（即使在空中飞行，也几乎没有垂直上升），也就是说，几乎所有的运动都在水平面上有位移，因此可以很好地反映了大多数场景中物体的运动状态；9XR财经新闻网

另一方面，BEV比点云的数据量更小，还可以通过减去参考帧和特征图来减少点云稀疏带来的表示不稳定的问题，即相同的静态区域是近似的，包括动态对象区域表示的距离较远。此外，多尺度卷积提取特征图进行表示，保证模型对不同移动速度的物体有较强的感知能力。9XR财经新闻网

9XR财经新闻网

随后，将该分支提取的运动状态信息特征与经时间嵌入向量增强的单扫描任务模型的3D分支提取的语义信息特征相结合，进行特征融合，最终实现语义分割。9XR财经新闻网

那么，这样实现的3D点云语义分割的效果如何呢？9XR财经新闻网

以几十毫秒计算，分割性能提升近5%9XR财经新闻网

与RGB图像等其他输入相比，本文重点测试模型对于纯点云输入的分割效果。9XR财经新闻网

从下表可以看出，对于数据集，在当前主流的单扫描点云分割模型如、、、中，在只给模型增加0.1M的情况下（参数量增加不到0.5%），性能（mIoU）分别提高了4.96%、5.65%和6.24%。9XR财经新闻网

同时，计算时间（延迟）仅增加了19ms、14ms和28ms。9XR财经新闻网

9XR财经新闻网

5% 对于模型分割性能有多重要？下图是两种扫描场景下模型增加前后的效果对比。左图是增加前，中是增加后，右图是真实值：9XR财经新闻网

显然，增加后模型识别物体的效果更好。9XR财经新闻网

直接将分割效果与真实值进行对比，可以看出增加后的“误差值”比增加前要低很多：9XR财经新闻网

整个推理过程只需一个 RTX 3090 GPU 即可完成。9XR财经新闻网

有兴趣的朋友可以尝试一下哦~9XR财经新闻网

项目地址：9XR财经新闻网

论文地址：9XR财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com9XR财经新闻网

全部评论

财经资讯频道推荐

互联网金融相关排行