据报道OpenAI与新闻出版商的交易每年最高可达500万美元

来源：互联网2024-01-05 10:55:39

导读随着新闻出版商与人工智能公司达成协议，用新闻故事训练他们的模型，像OpenAI这样的企业愿意为受版权保护的信息支付的价格逐渐浮出水面。据...

随着新闻出版商与人工智能公司达成协议，用新闻故事训练他们的模型，像OpenAI这样的企业愿意为受版权保护的信息支付的价格逐渐浮出水面。

据TheInformation报道，OpenAI每年提供100万至500万美元的价格来授权受版权保护的新闻文章来训练其AI模型。这是人工智能公司计划为许可材料支付多少费用的首要迹象之一。与此同时，最近的一份报告称，苹果正在寻求与媒体公司合作，将内容用于人工智能培训，并在多年内提供至少5000万美元的数据。TheVerge联系了OpenAI，请其对这些数字发表评论。

这些数字与一些早期的非人工智能许可交易大致相似。当Meta推出Facebook新闻选项卡时(自从在欧洲停止使用以来)，据称它每年提供高达300万美元的新闻报道、头条新闻和预览许可。但尚不清楚总支出是否等于我们所见过的一些更大的数字。例如，谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下，谷歌最近还同意每年向加拿大出版商支付总计1亿美元，以换取他们文章的链接。

据我们所知，当今的大型语言模型主要是根据互联网信息进行训练的。虽然一些人工智能模型没有透露它们如何获取训练数据，但通常可以获取有关使用哪些数据集或网络爬虫的信息。训练数据集的定价因提供商、数据集大小和内容而异。一些数据提供者(例如LAION)是开源且完全免费的，并由稳定扩散等模型使用。人工智能开发人员还经常设置网络爬虫，通过互联网获取数据来帮助训练他们的模型。(人工智能开发人员仍然需要雇用人员来审查、标记，有时还需要清理训练数据，这大大增加了运营成本。)

但这种做法现在面临着重大挑战。一方面，OpenAI的GPT爬虫已被一些公司禁止访问数据，其中包括《纽约时报》和TheVerge的母公司VoxMedia。另一方面，一些组织认为对其数据进行培训构成版权侵权。《纽约时报》等机构起诉OpenAI和微软侵犯版权，声称ChatGPT和微软的Copilot可以几乎逐字生成其工作的输出。

建立合作伙伴关系可以让人工智能公司避免这些问题，并且在过去的一年里这已经成为一种更常见的做法。AxelSpringer(Politico和BusinessInsider的母公司)和美联社等出版商已与OpenAI签署协议，授权故事来训练GPT-4等模型并开发新闻采集技术。

OpenAI和苹果并不是唯一希望与新闻机构合作的人工智能开发商。据报道，谷歌演示了一款名为Genesis的人工智能工具，该工具可以获取事实并向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管提供新闻报道。与此同时，一些新闻机构在新闻编辑室中使用了生成式人工智能工具，但结果好坏参半。

关键词：