莎拉·西尔弗曼和小说家起诉chatgpt制造商OpenAI吞食他们的书

aituiguang 2023-11-20 00:12:44 浏览量:5
问题描述:
最佳经验
File - Sarah Silverman introduces a performance at the 75th annual Tony Awards on Sunday, June 12, 2022, in New York. Silverman sued ChatGPT-maker OpenAI for copyright infringement this week, joining a growing number of writers who say they unwittingly built the foundation for Silicon Valley's red-hot AI boom. (Photo by Charles Sykes/Invision/AP, File)美联社科技撰稿人

向ChatGPT询问喜剧演员莎拉·西尔弗曼的回忆录《尿床者》,这个人工智能聊天机器人可以给出书中每个部分的详细摘要。

这是否意味着它能有效地“阅读”和记忆盗版?或者它收集了太多的客户评论和关于畅销书或受其启发的音乐剧的在线讨论,以至于被认为是专家?

在Silverman本周起诉chatgtf制造商OpenAI侵犯版权之后,美国法院现在可能会帮助解决这个问题,加入越来越多的作家,他们说他们无意中为硅谷火热的人工智能热潮奠定了基础。

西尔弗曼在诉讼中表示,她从未允许OpenAI摄取她2010年出版的书的数字版本来训练其人工智能模型,而且这本书很可能是从盗版作品的“影子图书馆”中窃取的。它说,这本回忆录“未经同意,没有署名,也没有赔偿”。

这是可能揭开OpenAI及其竞争对手秘密的越来越多的案例之一,这些案例涉及用于训练日益广泛使用的“生成式人工智能”产品的宝贵数据,这些产品可以创建新的文本、图像和音乐。麦肯锡全球研究所(McKinsey Global Institute)预计,这些工具将为全球经济带来相当于2.6万亿至4.4万亿美元的收益,但它也引发了对这些工具的道德和法律基础的质疑。

“这是整个机器学习行业的一个公开、肮脏的秘密,”代表西尔弗曼和其他作者寻求集体诉讼的律师之一马修·巴特里克(Matthew Butterick)说。“他们喜欢从这些非法网站获取图书数据。我们差不多是在向整个做法吹哨。”

OpenAI拒绝对这些指控发表评论。Silverman的另一起诉讼对Facebook和Instagram母公司meta构建的人工智能模型提出了类似的指控,后者也拒绝置评。

对于作家来说,这可能是一场艰难的官司,尤其是在谷歌成功击败了针对其在线图书库的法律挑战之后。2016年,美国最高法院维持了下级法院的判决,驳回了作家们的主张,即谷歌将数百万本书数字化并向公众展示其中的一小部分构成了“大规模的版权侵犯”。

乔治亚理工学院(Georgia Institute of Technology)法律与伦理学副教授德文?德赛(Deven Desai)表示:“我认为OpenAI在图书方面的做法与谷歌在谷歌图书项目上的做法非常接近,因此将是合法的。”

虽然只有包括西尔弗曼、畅销小说家莫娜·阿瓦德和保罗·特伦布莱在内的少数人提起了诉讼,但对科技行业人工智能建设实践的担忧已经在文学和艺术家群体中引起了关注。

其他著名作家——其中包括诺拉·罗伯茨、玛格丽特·阿特伍德、路易斯·厄德里奇和乔迪·皮考特——上月底联名致信OpenAI、谷歌、微软、meta和其他人工智能开发商的首席执行官,指责他们在构建聊天机器人时“模仿和反悔”他们的语言、风格和想法。

“数以百万计的受版权保护的书籍、文章、散文和诗歌为人工智能系统提供了‘食物’,没完没了的饭,却没有账单,”美国作家协会(Authors Guild)组织的这封公开信表示,该公开信有4000多名作家签名。“你正在花费数十亿美元来开发人工智能技术。只有你对我们使用我们的作品进行补偿才是公平的,否则人工智能将是平庸和极其有限的。”

ChatGPT、谷歌(Google)的Bard和微软(Microsoft)的必应(Bing)聊天机器人等热门产品背后的人工智能系统被称为大型语言模型,它们通过分析和从大量摄取的文本中提取模式来“学习”。他们对人类语言的强大掌握令公众敬畏,尽管他们也以散布谎言的倾向而闻名。

尽管这些模型也接受过新闻文章和社交媒体动态的训练,但正如OpenAI在西尔弗曼诉讼中引用的2018年论文中所承认的那样,书籍尤其有价值。

OpenAI大型语言模型的最早版本被称为GPT-1,它依赖于一个由大学研究人员编制的数据集,该数据集被称为多伦多图书语料库,其中包括数千本未出版的书籍,其中一些是冒险、奇幻和浪漫类型的书籍。

OpenAI的研究人员当时表示:“至关重要的是,它包含了很长的连续文本,这使得生成模型能够根据远程信息学习。”谷歌(Google)和亚马逊(Amazon)等其他科技公司也依赖于同样的数据,这些数据已不再以原始形式提供。

但从那以后,OpenAI和其他顶级人工智能开发商对他们的数据来源变得更加保密,尽管他们已经吸收了大量的书面作品。巴特里克说,间接证据表明,使用了所谓的盗版内容影子图书馆,其中保存着西尔弗曼和其他原告的作品。

“这对他们的模式很重要,因为书籍是长篇、精心编辑、连贯写作的最佳来源,”他说。“除非你的训练数据中有书籍,否则基本上不可能有高质量的语言模型。”

OpenAI可能需要几周或几个月的时间才能做出正式回应。但一旦案件继续进行,科技公司高管可能不得不就他们下载的书籍来源宣誓作证。

“据我们所知,对方并没有否认,”西尔弗曼的另一位律师约瑟夫·萨维里(Joseph Saveri)说。“他们对此没有其他解释。”

Saveri说,作者并不一定要求科技公司抛弃他们的算法和训练数据,重新开始——尽管美国联邦贸易委员会已经开创了一个先例,迫使公司销毁非法获得的人工智能数据。但他说,有必要以某种方式补偿作家。

资讯来源:http://www.xxyiy.cn/news/show-260.html

举报收藏 0打赏 0评论 0