随着新闻出版商与人工智能公司达成协议,用新闻故事训练他们的模型,像OpenAI这样的企业愿意为受版权保护的信息支付的价格逐渐浮出水面。
据TheInformation报道,OpenAI每年提供100万至500万美元的价格来授权受版权保护的新闻文章来训练其AI模型。这是人工智能公司计划为许可材料支付多少费用的首要迹象之一。与此同时,最近的一份报告称,苹果正在寻求与媒体公司合作,将内容用于人工智能培训,并在多年内提供至少5000万美元的数据。TheVerge联系了OpenAI,请其对这些数字发表评论。
这些数字与一些早期的非人工智能许可交易大致相似。当Meta推出Facebook新闻选项卡时(自从在欧洲停止使用以来),据称它每年提供高达300万美元的新闻报道、头条新闻和预览许可。但尚不清楚总支出是否等于我们所见过的一些更大的数字。例如,谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计1亿美元,以换取他们文章的链接。
据我们所知,当今的大型语言模型主要是根据互联网信息进行训练的。虽然一些人工智能模型没有透露它们如何获取训练数据,但通常可以获取有关使用哪些数据集或网络爬虫的信息。训练数据集的定价因提供商、数据集大小和内容而异。一些数据提供者(例如LAION)是开源且完全免费的,并由稳定扩散等模型使用。人工智能开发人员还经常设置网络爬虫,通过互联网获取数据来帮助训练他们的模型。(人工智能开发人员仍然需要雇用人员来审查、标记,有时还需要清理训练数据,这大大增加了运营成本。)
但这种做法现在面临着重大挑战。一方面,OpenAI的GPT爬虫已被一些公司禁止访问数据,其中包括《纽约时报》和TheVerge的母公司VoxMedia。另一方面,一些组织认为对其数据进行培训构成版权侵权。《纽约时报》等机构起诉OpenAI和微软侵犯版权,声称ChatGPT和微软的Copilot可以几乎逐字生成其工作的输出。
建立合作伙伴关系可以让人工智能公司避免这些问题,并且在过去的一年里这已经成为一种更常见的做法。AxelSpringer(Politico和BusinessInsider的母公司)和美联社等出版商已与OpenAI签署协议,授权故事来训练GPT-4等模型并开发新闻采集技术。
OpenAI和苹果并不是唯一希望与新闻机构合作的人工智能开发商。据报道,谷歌演示了一款名为Genesis的人工智能工具,该工具可以获取事实并向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管提供新闻报道。与此同时,一些新闻机构在新闻编辑室中使用了生成式人工智能工具,但结果好坏参半。