Waymo利用AI生成摄像头图像 用于自动驾驶仿真
据外媒报道,日前,Waymo表示开发了新方法SurfelGAN,利用自动驾驶汽车收集的传感器数据,通过AI生成用于仿真的摄像头图像。SurfelGAN使用纹理映射表面元素(surface elements,简称surfel)重建场景和摄像头视角,以获取位置和方向。
诸如Waymo这样的自动驾驶汽车公司利用仿真环境来训练、测试和验证系统,然后再将系统部署到现实世界的车辆中。设计模拟器有多种方法,但一些基础的模拟器忽略了对于场景理解至关重要的线索,比如行人的手势和闪烁的灯光。而像Waymo CarCraft这样更复杂的模拟器,由于试图对材料进行高度精确的建模,因此需要耗费大量的计算资源,以确保像激光雷达和雷达等传感器在真实世界中可靠地工作。
随着SurfelGAN的推出,Waymo提出了一种更简单的、数据驱动的方法来模拟传感器数据。SurfelGAN从真实世界的激光雷达传感器和摄像头获取数据,创建并保存场景中所有物体的3D几何、语义和外观的丰富信息。然后,再从不同的距离和视角渲染仿真场景,以进行重建。
Waymo发言人称,“在仿真中,当自动驾驶汽车和其他道路使用者的移动轨迹发生变化时,系统会生成真实的视觉传感器数据,帮助我们在新的环境中建模场景。部分系统正在生产中。”
SurfelGAN利用纹理增强表面元素地图的场景表示方法,这是一种紧凑、易于构造的场景表示方法,能够在保留传感器信息的同时保持合理的计算效率。SurfelGAN将激光雷达扫描到的体元(3D空间中定义点的图形信息的单位)转换成表面元素盘(surfel discs),可根据摄像头数据估算颜色,然后对这些元素进行后处理,以处理光线和姿态的变化。
为了处理车辆这类动态物体,SurfelGAN还使用了Waymo Open Dataset中的注释。兴趣物体的激光雷达扫描数据不断积累,以便在仿真中Waymo可以生成汽车和行人的重建。
SurfelGAN中的生成对抗网络(GAN)模块负责将表面元素图像渲染转换成逼真的图像。其生成器模型从使用分布采样的随机噪声中生成合成示例,这些示例连同来自训练数据集的真实示例一起反馈给鉴别器,而鉴别器视图区分这两者。生成器和鉴别器的能力不断提升,直到鉴别器无法区分合成示例和真实示例。
SurfelGAN模块以一种无人监管的方式进行训练,意味着其在没有参考已知、标记或注释结果的情况下推断语料库中的模式。有趣的是,每当鉴别器正确地识别合成示例时,就会告诉生成器如何调整输出,从而更加真实。
Waymo进行了一系列测试来评估SurfelGAN的表现,给它输入了798个训练序列,包括20秒的摄像头数据和激光雷达数据,以及来自Waymo Open Dataset数据集中关于车辆、行人和骑行者的注释。SurfelGAN团队还创建和使用新的数据集Waymo Open Dataset-Novel View,为原始数据中的每一帧创建全新的表面元素图像渲染。
最后,Waymo收集了未注释摄像头图像的额外序列(共9800个,每个100帧),并构建了一个称为双摄像头后数据集(Dual-Camera-Post Dataset,DCP)的语料库,以测量SurfelGAN生成图像的真实度。DCP可处理两辆车同时观察同一场景的情况;Waymo使用来自第一辆车的数据重建场景,并在第二辆车的精确姿态下渲染表面元素图像。
研究人员称,当SurfelGAN生成的图像提供给现成的车辆探测器时,最高质量的合成图像达到了与真实图像相同的标准。SurfelGAN还改进了DCP(双摄像头后数据集)中的表面元素渲染,在一定距离内生成更逼真的图像。此外,研究人员还证明,SurfelGAN生成的图像还将车辆探测器的平均精度从11.9%提高到13%。
Waymo指出SurfelGAN并不完美。例如,它有时无法从损坏的几何图形中恢复,导致车辆看起来不真实。在没有表面元素信息的情况下,AI表现出了很大的差异。尽管如此,研究人员仍然认为SurfelGAN是未来动态物体建模和视频生成仿真系统的坚实基础。