如果一家媒体复制了《纽约时报》的大量报道,并将其发布在自己的网站上,这可能会被视为公然侵犯《纽约时报》的版权。
但是,如果一家科技公司复制这些相同的文章,将它们与无数其他复制的作品结合起来,并用它们来训练一个能够谈论几乎任何话题的人工智能聊天机器人,包括它从《纽约时报》学到的话题,那该怎么办?
上周,《纽约时报》在联邦法院起诉OpenAI和微软,指控这两家科技公司非法使用“数百万篇”受《纽约时报》版权保护的文章,帮助开发ChatGPT和必应等工具背后的人工智能模型。这是一系列诉讼中最新的一起,也有人认为是最激烈的一起,这些诉讼指控各种科技和人工智能公司侵犯了媒体公司、摄影网站、图书作者和艺术家的知识产权。
一些法律专家表示,这些案件加在一起,有可能动摇蓬勃发展的生成式人工智能行业的基础,但它们也可能落空。这是因为科技公司可能会严重依赖一个在过去对它们很有帮助的法律概念:被称为“合理使用”的原则。
从广义上讲,版权法区分了逐字抄袭别人的作品——这通常是非法的——和“重新混合”或将其用于新的、创造性的用途。康奈尔大学(Cornell University)数字和信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)说,人工智能系统令人困惑的是,在这种情况下,它们似乎两者都在做。
格里梅尔曼表示,生成式人工智能代表了“这一重大的技术变革,它可以制作任何东西的混合版本”。“挑战在于,这些模特还可以明目张胆地记住他们训练过的作品,并经常复制出几乎一模一样的作品,”他说,这是“传统上版权法禁止的核心内容”。
从第一台可用于录制电视节目和电影的录像机,到将数百万本书数字化的谷歌图书(Google Books),美国公司已经让法院相信,它们的技术工具构成了对受版权保护作品的合理使用。OpenAI和微软已经在进行类似的辩护。
OpenAI在11月提交给美国版权局的一份文件中写道:“我们认为,人工智能模型的训练符合合理使用的条件,完全符合现有的先例,即技术创新者以变革性的方式使用受版权保护的材料完全符合版权法。”
人工智能系统通常在庞大的数据集上进行“训练”,这些数据集包括大量已发表的材料,其中大部分都是有版权的。通过这种训练,他们开始认识到单词和像素排列的模式,然后他们可以根据这些模式来组合出合理的散文和图像,以回应几乎任何提示。
一些人工智能爱好者将这一过程视为一种学习形式,就像一个艺术系学生狼吞虎咽地读莫奈(Monet)的书,或者一个新闻迷从头到尾地阅读《泰晤士报》(Times)以培养自己的专业知识一样。但原告在这些模式背后看到了一个更为平常的过程:这是一种抄袭,而且是未经授权的抄袭。
“它不是像大脑学习事实那样学习事实,”新闻/媒体联盟(News/Media Alliance)的首席执行官丹妮尔·科菲(Danielle Coffey)说。新闻/媒体联盟是一个行业组织,代表着包括《纽约时报》和《华盛顿邮报》在内的2000多家媒体机构。“它实际上是在向你吐口水。”
《纽约时报》对OpenAI和微软的指控主要有两个方面。首先,就像最近的其他人工智能版权诉讼一样,《纽约时报》辩称,当其文章被“刮擦”(或数字扫描和复制)纳入GPT-4和其他人工智能模型训练的庞大数据集时,其权利受到了侵犯。这有时被称为“输入”侧。
其次,《纽约时报》的诉讼引用了OpenAI的GPT-4语言模型的例子,该模型的版本支持ChatGPT和必应,似乎可以提供付费文章的详细摘要,比如该公司的Wirecutter产品评论,或者是《纽约时报》特定文章的整个部分。换句话说,《纽约时报》声称,这些工具的“输出”也侵犯了它的版权。
海恩斯和布恩律师事务所(Haynes and Boone)合伙人、该事务所知识产权诉讼小组主席杰森?布鲁姆(Jason Bloom)表示,迄今为止,法官们一直对这样一种说法持谨慎态度,即训练人工智能模型识别受版权保护的作品——即“输入”方面——本身就构成了一种侵犯。
布鲁姆说:“从技术上讲,这样做可能会侵犯版权,但基于先例,这更有可能被视为合理使用,因为你只是在消化和训练这些作品,而不是公开展示。”(布鲁姆没有参与任何正在进行的人工智能版权诉讼。)
合理使用也适用于复制的目的与简单复制原作不同的情况,比如评论原作或用于研究或教育目的,比如老师复印一篇新闻文章分发给新闻课。这就是谷歌为谷歌图书辩护的方式。谷歌图书是一个雄心勃勃的项目,旨在扫描和数字化来自公共图书馆和学术图书馆的数百万本受版权保护的图书,使其内容可以在网上搜索。
2005年,美国作家协会对该项目提起诉讼,称其“公然违反版权法”。但谷歌辩称,由于它在搜索时只显示图书的“片段”,因此它并没有破坏图书市场,而是提供了一种完全不同的服务。2015年,一家联邦上诉法院同意了谷歌的意见。
圣克拉拉大学法学院(Santa Clara University School of Law)教授、该校高科技法律研究所(High tech Law Institute)联席主任埃里克·戈德曼(Eric Goldman)说,这一先例应该有利于OpenAI、微软和其他科技公司。
“我的立场是,基于先例,如果产出没有侵权,那么之前发生的任何事情也没有侵权,”戈德曼说。“让我知道产出是侵权的。如果不是,那么版权案件就结束了。”
OpenAI和微软也是其他人工智能版权诉讼的对象,其他人工智能竞争对手包括meta、Stability AI和Midjourney,其中一些针对基于文本的聊天机器人,另一些针对图像生成器。到目前为止,法官已经驳回了至少两起案件的部分内容,在这两起案件中,原告未能证明人工智能的产出与他们的版权作品在本质上相似。
相比之下,《纽约时报》的诉讼提供了许多例子,其中一个版本的GPT-4根据某些提示复制了与《纽约时报》文章相同的大量文本。
科罗拉多法学院副教授布莱克·里德(Blake Reid)说,如果案件进展到这个地步,陪审团可能会有很长的路要走。但他补充说,如果法院发现只有这些特定的产出是侵权的,而不是将受版权保护的材料用于培训,那么对科技公司来说,这可能会更容易解决。
OpenAI的立场是,《纽约时报》诉讼中的例子是失常的——系统中的一种缺陷,导致它逐字逐句地说出段落。
OpenAI的知识产权和内容主管汤姆·鲁宾(Tom Rubin)表示,《纽约时报》似乎故意操纵了对人工智能系统的提示,让它重现训练数据。他通过电子邮件表示,诉讼中的例子“不反映预期用途或正常用户行为,违反了我们的使用条款”。
“他们的许多例子在今天是不可复制的,”鲁宾补充说,“我们不断使我们的产品更能适应这种滥用。”
《纽约时报》并不是唯一一家发现人工智能系统产生类似于版权作品的输出的机构。Getty Images对Stability AI提起的诉讼指出了其稳定扩散图像生成器复制Getty水印的例子。人工智能专家加里·马库斯(Gary Marcus)最近在一篇博客文章中展示了一些例子,其中微软的Image Creator似乎可以生成电影和电视节目中著名角色的图片。
微软没有回应置评请求。
《纽约时报》没有具体说明索赔金额,不过该公司估计损失将达到“数十亿”。它还要求永久禁止未经许可使用其作品。更戏剧性的是,它要求摧毁任何在时报内容上训练过的现有人工智能模型。
几位法律专家一致认为,由于人工智能案件代表了版权法的新领域,目前尚不清楚法官和陪审团最终将如何裁决。
范德比尔特法学院(Vanderbilt Law)教授、该校知识产权项目主管丹尼尔·热维斯(Daniel Gervais)说,虽然谷歌图书案可能对科技公司有利,但最高法院最近在艺术家安迪·沃霍尔(Andy Warhol)使用摇滚明星普林斯(Prince)照片的案件中做出的裁决,使合理使用的图景变得模糊了。法院发现,如果复制是为了与原创作品竞争,“这不利于合理使用”作为辩护理由。因此,《纽约时报》的案子可能在一定程度上取决于它能否证明ChatGPT和必应等产品与它的业务形成了竞争,并对其业务造成了损害。
“任何预测结果的人都在冒很大的风险,”Gervais说。他说,对于像《纽约时报》这样的商业原告来说,一个可能的结果可能是达成和解,让科技公司获得使用内容的许可,以换取报酬。《纽约时报》在诉讼中披露,在起诉OpenAI之前,《纽约时报》与OpenAI和微软(Microsoft)进行了数月的谈判。微软持有OpenAI的主要股份。
一些媒体公司已经就其内容的使用达成了协议。上个月,OpenAI同意向出版《Business Insider》和《Politico》的德国媒体集团阿克塞尔·斯普林格(Axel Springer)支付费用,在ChatGPT回复中展示部分文章。这家科技公司还与美联社(Associated Press)达成了一项协议,可以访问美联社的档案。
《纽约时报》的胜利可能对新闻行业产生重大影响。自近20年前互联网开始取代报纸和杂志以来,新闻行业一直处于危机之中。从那时起,报纸广告收入一直在稳步下降,工作记者的数量急剧下降,全国数百个社区不再拥有地方报纸。
但是,就在出版商为使用人工生成的材料来训练人工智能而寻求报酬的同时,一些出版商也在出版人工智能创作的作品——当这些机器创作的文章充斥着错误时,这既引发了强烈反对,也引发了尴尬。
康奈尔大学的格里梅尔曼表示,人工智能版权案件最终可能取决于双方如何权衡这项技术的利弊。
“看看所有的诉讼,他们都在试图讲述这些公司是如何剽窃艺术家的故事,”他说。“看看(人工智能公司的回应),他们正试图讲述这些人工智能可以做的所有真正有趣的事情,这些事情真正新颖而令人兴奋。”
科罗拉多法学院的里德指出,与十年前谷歌图书案判决时相比,如今许多法官和陪审团对科技巨头的同情可能会减少。
他说,“你从科技行业听到很多关于创新、开源和初创企业的事情是有原因的”。“这里有一场比赛,谁是大卫,谁是歌利亚。”