首页 > 互联网 > 正文

OpenAI的新ChatGPT隐私工具可让创作者向AI隐藏他们的作品

来源:互联网2024-05-10 11:11:23
导读 自从ChatGPT首次向公众发布以来,OpenAI就一直在数据隐私方面陷入困境。该公司使用大量来自公共互联网的数据来训练为ChatGPT和其他人工智能...

自从ChatGPT首次向公众发布以来,OpenAI就一直在数据隐私方面陷入困境。该公司使用大量来自公共互联网的数据来训练为ChatGPT和其他人工智能产品提供支持的大型语言模型。但这似乎包括受版权保护的内容。一些创作者起诉了OpenAI,一些政府也已展开调查。

普通用户也缺乏基本的隐私保护,比如选择不使用你的数据训练人工智能。OpenAI迫于监管机构的压力,要求添加隐私设置,让你可以删除自己的内容,这样它就不会被用来训练ChatGPT。

展望未来,OpenAI计划部署一款名为MediaManager的新工具,让创作者可以选择退出训练ChatGPT和其他为OpenAI产品提供支持的模型。该功能的推出可能比一些人预期的要晚得多,但它仍然是一个有用的隐私升级。

OpenAI周二发布了一篇博文,详细介绍了新的隐私工具,并解释了它如何训练ChatGPT和其他人工智能产品。媒体管理器将让创作者识别他们的内容,并告诉OpenAI他们希望将其排除在机器学习研究和培训之外。

现在,坏消息是:该工具尚不可用。它将于2025年准备就绪,OpenAI表示计划在继续开发过程中引入更多选择和功能。该公司还希望能够创建一个新的行业标准。

OpenAI没有详细解释媒体管理器的工作原理。但它对此抱有很大的野心,因为它将涵盖各种内容,而不仅仅是ChatGPT可能在互联网上遇到的文本:

这将需要尖端的机器学习研究来构建有史以来第一个同类工具,以帮助我们识别多个来源的受版权保护的文本、图像、音频和视频,并反映创作者的偏好。

OpenAI还指出,它正在与创作者、内容所有者和监管机构合作开发媒体管理器工具。

OpenAI如何训练ChatGPT和其他模型

这篇新博文不仅仅是宣布新的媒体管理器工具,该工具可能会阻止ChatGPT和其他人工智能产品访问受版权保护的内容。它还宣示了公司开发造福用户的人工智能产品的良好意愿。这听起来像是对ChatGPT和其他OpenAI产品可能未经授权使用版权内容的指控的公开辩护。

OpenAI实际上解释了它如何训练模型以及防止未经授权的内容和用户数据进入ChatGPT所采取的步骤。

该公司还表示,它不会保留任何用于训练模型的数据。这些模型不像数据库那样存储数据。此外,每一代新一代基础模型都会获得新的训练数据集。

训练过程完成后,AI模型不会保留对训练中分析的数据的访问权限。ChatGPT就像一位老师,她从大量先前的学习中学到了知识,并且可以解释事物,因为她已经了解了概念之间的关系,但并不将材料存储在她的头脑中。

此外,OpenAI表示ChatGPT和其他模型不应该反刍内容。当出现这种情况时,一定是训练层面出现了错误。

如果在极少数情况下,模型无意中重复了表达内容,则表明机器学习过程失败。这种失败更有可能发生在训练数据集中频繁出现的内容上,例如由于频繁引用而出现在许多不同公共网站上的内容。我们在API或ChatGPT的整个培训和输出过程中采用最先进的技术,以防止重复,并且我们通过持续的研究和开发不断进行改进。

该公司还希望有足够的多样性来训练ChatGPT和其他人工智能模型。这意味着内容有多种语言,涵盖不同的文化、主题和行业。

“与人工智能领域的大公司不同,我们没有几十年来收集的大量数据。我们主要依靠公开信息来教导我们的模型如何提供帮助。”OpenAI补充道。

关键词:
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

猜你喜欢

最新文章