如果你让人工智能图像生成器为你提供某物的图片,它的结果可能从得体到毫无意义甚至完全令人反感。这对于互联网数据中没有得到很好体现的文化尤其糟糕。
卡内基梅隆大学领导的国际团队利用PSC的Bridges-2系统和来自多种不同文化的输入,开发了一种有效的微调方法,即自对比微调(SCoFT,发音为“soft”),用于重新训练流行的图像生成器,以便它可以为代表性不足的文化生成公平的图像。
如果你曾要求任何搜索引擎为你提供某个物体或场景的图片,你可能会注意到一些奇怪的事情。你偶尔会得到你想要的结果;其他时候,结果令人费解。有时,它们简直令人讨厌。
当有人要求人工智能图像生成器创建图片时,问题就变得更加严重。如果某个组织网站上的图片在某个国家/地区具有冒犯性,那么该组织可能会失去在该国的业务或关系。
一些研究表明,年轻人如果在网上看到与自己相似的人的负面形象,患抑郁症和自残的几率可能会更高。此外,分享一张最终被发现毫无意义的照片,更不用说冒犯他人,也只会让他们感到羞耻。
卡内基梅隆大学机器人研究所副教授JeanOh表示:“我们希望将视觉表现作为世界各地人们交流的通用方式。例如,在我们NSFAI-CARING计划的国际合作项目中,生成的图像可以帮助老年人学习外语。
“但是,当我们开始生成有关韩国、中国和尼日利亚的图像时,我们立即发现,流行的基础模型对美国以外的世界一无所知。如果我们根据这些模型所知道的内容重新绘制世界地图,它将非常扭曲。”
这并不奇怪。这些模型都是根据互联网数据进行训练的。互联网虽然是全球性的,但往往以西方内容为主,尤其是美国内容和英语内容。
Oh领导的研究团队正在研究如何让生成式AI模型能够感知人类和文化的多样性。为了实现这一目标,她的团队开发了一种新颖的微调方法,并借助NSF的ACCESS项目的拨款,使用PSC的Bridges-2超级计算机来训练新模型并运行一系列实验来验证所提方法的性能。
PSC如何提供帮助
开发图像生成基础的人工智能方法的科学家一度认为,我们拥有的数据越多,结果就会越好。然而,互联网并非如此。除了被西方图像和数据所主导之外,互联网上还存在着一些真正不好的东西。出于很多原因,海量数据并不总是能为我们指明正确的方向。
深度学习人工智能通过蛮力学习,首先对人类标记了“正确”答案的训练数据集进行随机猜测。当计算机做出正确或错误的猜测时,它会使用这些标签来纠正自己,最终变得足够准确,可以在没有给出答案的数据上进行测试。
对于根据文本请求生成图像的任务,名为StableDiffusion的AI工具就是最先进的示例,该工具已经在58.5亿个文本到图像对LAION数据集上进行了训练。
但请StableDiffusion为您描绘尼日利亚伊巴丹的现代街道,您会看到西方人对非洲城市街道的负面刻板印象——一条破旧的土路,街上堆满垃圾,窗户上挂着衣服。对于其他文化,其他图像可能不那么明显令人反感。从某些方面来说,这更糟糕,因为更难识别。
为了改进这一点,机器人研究所团队招募了来自五种文化的人员来整理一个小型的、与文化相关的数据集。尽管这个跨文化理解基准(CCUB)数据集平均每个文化只有大约140个文本到图像对,但它允许团队重新训练稳定扩散,教它生成更准确地描绘每种文化的图像,与基线模型相比,刻板印象更少。该团队还为流行的GPT-3AI图像生成器生成的图像添加了相同的微调步骤。