新技术提高了人工智能利用二维相机绘制三维空间的能力

2024-06-17 16:11:04 来源：用户：

研究人员开发出一种技术，让人工智能 (AI) 程序能够利用多个摄像头捕捉的二维图像更好地绘制三维空间。由于该技术在有限的计算资源下有效运行，因此有望改善自动驾驶汽车的导航。

“大多数自动驾驶汽车都使用强大的人工智能程序，即视觉转换器，从多个摄像头拍摄二维图像，并创建车辆周围三维空间的表示，”该论文的通讯作者、北卡罗来纳州立大学电气与计算机工程副教授吴天福说。“然而，虽然这些人工智能程序都采用了不同的方法，但仍有很大的改进空间。

“我们的技术称为多视角注意力语境化 (MvACon)，是一种即插即用的补充技术，可与这些现有的视觉转换器 AI 结合使用，以提高其绘制 3D 空间的能力，”吴说。“视觉转换器不会从其摄像头获取任何额外数据，它们只是能够更好地利用这些数据。”

MvACon 有效地通过修改一种名为 Patch-to-Cluster 注意力 (PaCa) 的方法发挥作用，这种方法是吴和他的合作者去年发布的。PaCa 允许 transformer AI 更高效、更有效地识别图像中的物体。

吴说：“这里的关键进步是将我们在 PaCa 中展示的技术应用于使用多台摄像机绘制 3D 空间的挑战。”

为了测试 MvACon 的性能，研究人员将其与三种领先的视觉转换器(BEVFormer、BEVFormer DFA3D 变体和 PETR)结合使用。在每种情况下，视觉转换器都会从六个不同的摄像头收集 2D 图像。在这三种情况下，MvACon 都显著提高了每个视觉转换器的性能。

“在定位物体以及物体的速度和方向方面，性能得到了特别的改善，”吴说。“而将 MvACon 添加到视觉转换器中所带来的计算需求的增加几乎可以忽略不计。”

“我们的下一步包括使用其他基准数据集测试 MvACon，以及使用来自自动驾驶汽车的实际视频输入进行测试。如果 MvACon 继续胜过现有的视觉转换器，我们乐观地认为它将被广泛采用。”

该论文“多视图注意语境化用于多视图 3D 物体检测”将于 6 月 20 日在华盛顿州西雅图举行的 IEEE/CVF 计算机视觉和模式识别会议上发表。

论文第一作者为北卡州立大学应届博士毕业生刘贤鹏，论文共同作者包括中佛罗里达大学的郑策、陈晨，蚂蚁集团的钱明、薛楠，以及OPPO美国研究中心的张哲斌、李晨。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！