首页 > 生活 > 正文

新技术提高了人工智能利用二维相机绘制三维空间的能力

来源:生活2024-06-17 16:11:04
导读 研究人员开发出一种技术,让人工智能 (AI) 程序能够利用多个摄像头捕捉的二维图像更好地绘制三维空间。由于该技术在有限的计算资源下有效...

研究人员开发出一种技术,让人工智能 (AI) 程序能够利用多个摄像头捕捉的二维图像更好地绘制三维空间。由于该技术在有限的计算资源下有效运行,因此有望改善自动驾驶汽车的导航。

“大多数自动驾驶汽车都使用强大的人工智能程序,即视觉转换器,从多个摄像头拍摄二维图像,并创建车辆周围三维空间的表示,”该论文的通讯作者、北卡罗来纳州立大学电气与计算机工程副教授吴天福说。“然而,虽然这些人工智能程序都采用了不同的方法,但仍有很大的改进空间。

“我们的技术称为多视角注意力语境化 (MvACon),是一种即插即用的补充技术,可与这些现有的视觉转换器 AI 结合使用,以提高其绘制 3D 空间的能力,”吴说。“视觉转换器不会从其摄像头获取任何额外数据,它们只是能够更好地利用这些数据。”

MvACon 有效地通过修改一种名为 Patch-to-Cluster 注意力 (PaCa) 的方法发挥作用,这种方法是吴和他的合作者去年发布的。PaCa 允许 transformer AI 更高效、更有效地识别图像中的物体。

吴说:“这里的关键进步是将我们在 PaCa 中展示的技术应用于使用多台摄像机绘制 3D 空间的挑战。”

为了测试 MvACon 的性能,研究人员将其与三种领先的视觉转换器(BEVFormer、BEVFormer DFA3D 变体和 PETR)结合使用。在每种情况下,视觉转换器都会从六个不同的摄像头收集 2D 图像。在这三种情况下,MvACon 都显著提高了每个视觉转换器的性能。

“在定位物体以及物体的速度和方向方面,性能得到了特别的改善,”吴说。“而将 MvACon 添加到视觉转换器中所带来的计算需求的增加几乎可以忽略不计。”

“我们的下一步包括使用其他基准数据集测试 MvACon,以及使用来自自动驾驶汽车的实际视频输入进行测试。如果 MvACon 继续胜过现有的视觉转换器,我们乐观地认为它将被广泛采用。”

该论文“多视图注意语境化用于多视图 3D 物体检测”将于 6 月 20 日在华盛顿州西雅图举行的 IEEE/CVF 计算机视觉和模式识别会议上发表。

论文第一作者为北卡州立大学应届博士毕业生刘贤鹏,论文共同作者包括中佛罗里达大学的郑策、陈晨,蚂蚁集团的钱明、薛楠,以及OPPO美国研究中心的张哲斌、李晨。

关键词:
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

猜你喜欢

最新文章