这家媒体机构在提交给曼哈顿一家联邦法院的文件中表示,未经许可或赔偿使用其数据破坏了其商业模式,并威胁到“对我们的民主至关重要”的独立新闻报道。
这起诉讼暴露了科技公司对记者等内容创造者提供的准确、高质量数据的使用存在争议,这些数据是为构成生成式人工智能主干的“大语言模型”提供动力所必需的。
这一案件将受到创意产业中担心其知识产权受到侵犯的其他各方的密切关注。一些批评人士声称,“火车”这个词——用来指为人工智能提供动力而收集的数据——是硅谷的说法,更合适的词是“刮”。
美国作家和艺术家对OpenAI和其他科技公司提起了一系列版权诉讼。其中包括喜剧演员莎拉·西尔弗曼和普利策奖得主小说家迈克尔·查邦。然而,这些指控的部分内容被法官驳回,因为他们无法证明人工智能复制了相同的材料,而《纽约时报》似乎证明了使用了传真。
苏塞克斯大学(University of Sussex)知识产权法专业的安德烈斯?瓜达莫兹(Andres Guadamuz)博士一直在关注这些案件,他表示,《纽约时报》的申请似乎更有依据,是在收购斯普林格的交易确立了新闻内容的价值之后的一种“谈判策略”。
“这可能是迄今为止最严重的案件之一。他们已经设法得到了一些输出,这些输出似乎是输入源材料的完整复制。这是一件大事。他说:“很多案件都被驳回了,因为很多诉讼都无法显示侵权成果。”
《纽约时报》声称,它可以演示对其内容的传真使用。在一个示例列表中,它列出了聊天机器人如何能够逐字背诵出版商作品的重要部分,包括ChatGPT在其他地方找不到的深度调查文本,准确地模仿出版商的风格。
例如,据称它可以引用餐厅评论家为该媒体集团撰写的评论。当我要求聊天机器人输入《纽约时报》一篇文章的开头时,“因为我被付费屏蔽了,无法阅读《纽约时报》的文章”,得到的回答是“当然!”该公司声称,这是第一段,展示了如何使用聊天机器人来避免为内容付费。
《纽约时报》发现,聊天机器人还会以自己的风格创造副本,声称是由其记者撰写的。在回应《纽约时报》一篇文章的部分内容时,它发现“必应聊天完全捏造了一段话,包括一些特定的引用……这些引用在《纽约时报》的文章中没有出现,在互联网上也没有出现。”
该出版商声称,使用其数据来优化人工智能模型是出于经济动机。“微软在其整个产品线中部署了经过时代训练的人工智能,仅在过去一年里,它的市值就增加了1万亿美元。OpenAI发布的ChatGPT使其估值高达900亿美元。”
一些媒体机构,包括出版《政治》(Politico)、《图片报》(Bild)和《内幕》(Insider)的德国跨国媒体集团阿克塞尔?施普林格(Axel Springer)以及新闻机构美联社(Associated Press),已寻求与OpenAI达成商业协议,以获得其内容的授权。英国广播公司(BBC)、《卫报》(Guardian)和《孤独星球》(Lonely Planet)等其他媒体也已阻止这家人工智能公司抓取其网站上的内容。
《纽约时报》表示,它曾试图与这些科技公司进行谈判,但以失败告终,并辩称它们的内容属于“合理使用”的范畴。
这一事件也表明,传统的互联网搜索模式已被颠覆。用户被引导到公司网站,这样企业就不会错过来自访问者的收入,聊天机器人的反应可以是即时的。它们也可能没有来源,而且不准确。