研究人员开发出一种技术,让人工智能 (AI) 程序能够利用多个摄像头捕捉的二维图像更好地绘制三维空间。由于该技术在有限的计算资源下有效运行,因此有望改善自动驾驶汽车的导航。
“大多数自动驾驶汽车都使用强大的人工智能程序,即视觉转换器,从多个摄像头拍摄二维图像,并创建车辆周围三维空间的表示,”该论文的通讯作者、北卡罗来纳州立大学电气与计算机工程副教授吴天福说。“然而,虽然这些人工智能程序都采用了不同的方法,但仍有很大的改进空间。
“我们的技术称为多视角注意力语境化 (MvACon),是一种即插即用的补充技术,可与这些现有的视觉转换器 AI 结合使用,以提高其绘制 3D 空间的能力,”吴说。“视觉转换器不会从其摄像头获取任何额外数据,它们只是能够更好地利用这些数据。”
MvACon 有效地通过修改一种名为 Patch-to-Cluster 注意力 (PaCa) 的方法发挥作用,这种方法是吴和他的合作者去年发布的。PaCa 允许 transformer AI 更高效、更有效地识别图像中的物体。
吴说:“这里的关键进步是将我们在 PaCa 中展示的技术应用于使用多台摄像机绘制 3D 空间的挑战。”
为了测试 MvACon 的性能,研究人员将其与三种领先的视觉转换器(BEVFormer、BEVFormer DFA3D 变体和 PETR)结合使用。在每种情况下,视觉转换器都会从六个不同的摄像头收集 2D 图像。在这三种情况下,MvACon 都显著提高了每个视觉转换器的性能。
“在定位物体以及物体的速度和方向方面,性能得到了特别的改善,”吴说。“而将 MvACon 添加到视觉转换器中所带来的计算需求的增加几乎可以忽略不计。”
“我们的下一步包括使用其他基准数据集测试 MvACon,以及使用来自自动驾驶汽车的实际视频输入进行测试。如果 MvACon 继续胜过现有的视觉转换器,我们乐观地认为它将被广泛采用。”
该论文“多视图注意语境化用于多视图 3D 物体检测”将于 6 月 20 日在华盛顿州西雅图举行的 IEEE/CVF 计算机视觉和模式识别会议上发表。
论文第一作者为北卡州立大学应届博士毕业生刘贤鹏,论文共同作者包括中佛罗里达大学的郑策、陈晨,蚂蚁集团的钱明、薛楠,以及OPPO美国研究中心的张哲斌、李晨。