想象一下这个。您需要一张气球图像来进行工作演示,并使用文本到图像生成器(例如Midjourney或DALL-E)来创建合适的图像。
您输入提示:“红气球映衬蓝天”,但生成器返回鸡蛋的图像。您再试一次,但这一次,生成器显示了西瓜的图像。
发生什么事了?
您正在使用的发电机可能已“中毒”。
什么是“数据中毒”?
文本到图像生成器的工作原理是在包含数百万或数十亿图像的大型数据集上进行训练。有些生成器,例如Adobe或Getty提供的生成器,仅使用生成器制造商拥有或有权使用的图像进行训练。
但其他生成器是通过不加区别地抓取在线图像来训练的,其中许多图像可能受版权保护。这导致了一系列版权侵权案件,艺术家指控大型科技公司窃取他们的作品并从中获利。
这也是“毒”的概念所在。想要为个人艺术家提供帮助的研究人员最近创建了一个名为“Nightshade”的工具。反击未经授权的图像抓取。
该工具的工作原理是巧妙地改变图像的像素,这种方式会对计算机视觉造成严重破坏,但人眼看到的图像却不会改变。
如果一个组织随后抓取其中一张图像来训练未来的人工智能模型,那么它的数据池就会“中毒”。这可能会导致算法错误地学习将图像分类为人类视觉上认为不真实的图像。因此,生成器可能会开始返回不可预测和意外的结果。
中毒症状
就像我们前面的例子一样,气球可能会变成鸡蛋。对莫奈风格的图像的请求可能会返回毕加索风格的图像。
早期人工智能模型的一些问题,例如无法准确渲染手部等问题可能会再次出现。这些模型还可以在图像中引入其他奇怪和不合逻辑的特征——比如六足狗或变形的沙发。
“中毒”的数量越多。训练数据中的图像越多,干扰就越大。由于生成式人工智能的工作原理,“中毒”造成的损害会减少。图片也会影响相关的提示关键词。
例如,如果一个“中毒”的人训练数据中使用了法拉利的图像,其他汽车品牌和其他相关术语(例如车辆和汽车)的提示结果也会受到影响.
Nightshade的开发者希望该工具能让大型科技公司更加尊重版权,但用户也有可能滥用该工具并故意上传“中毒”的内容。向发电机发送图像以尝试破坏其服务。
有解药吗?
作为回应,利益相关者提出了一系列技术和人力解决方案。最明显的是更加关注输入数据的来源以及如何使用它们。这样做会减少不加区分的数据收集。
这种方法确实挑战了计算机科学家的一个普遍信念:网上找到的数据可以用于他们认为合适的任何目的。
其他技术修复还包括使用“集成建模”模型其中不同的模型在许多不同的数据子集上进行训练,并进行比较以定位特定的异常值。这种方法不仅可以用于训练,还可以用于检测和丢弃可疑的“中毒”对象。图片。
审核是另一种选择。一种审核方法涉及使用“保留”方法开发“测试电池”——一个小型、精心策划且标记良好的数据集。从未用于训练的数据。然后可以使用该数据集来检查模型的准确性。
针对技术的策略
所谓的“对抗性方法”(那些降低、否认、欺骗或操纵人工智能系统的行为),包括数据中毒,并不是什么新鲜事。他们历史上还包括使用化妆品和服装来规避面部识别系统。
例如,人权活动家一段时间以来一直担心更广泛的社会中滥用机器视觉的情况。这种担忧在面部识别方面尤其严重。
像ClearviewAI这样的系统托管着从互联网上抓取的大量可搜索人脸数据库,供执法部门使用,。侵犯了澳大利亚人的隐私。2021年,澳大利亚政府认定ClearviewAI全球政府机构
针对面部识别系统被用于分析特定个人(包括合法抗议者)的情况,艺术家设计了锯齿线的对抗性化妆图案以及不对称曲线,导致监视系统无法准确识别它们。
这些案件与数据中毒问题之间存在明显的联系,因为两者都与围绕技术治理的更大问题有关。
许多技术供应商认为数据中毒是一个棘手的问题,需要通过技术解决方案来解决。然而,最好将数据中毒视为侵犯艺术家和用户基本道德权利的创新解决方案。