美国作家协会起诉OpenAI版权侵权案解读

近期，美国作家协会（Authors Guild）对人工智能公司OpenAI提起了版权侵权的集体诉讼。刘雨薇和王新锐律师对原告递交的起诉状中的重点内容进行总结及解读。在此与大家分享。

时隔13年，曾发起21世纪美国最重要的版权案件之一“谷歌图书馆案”（Authors Guild. v Google, Inc.）的原告，美国作家协会（Authors Guild），近期在美国纽约南区联邦地方法院向发展势头正猛的人工智能公司OpenAI提起了版权侵权的集体诉讼，美国关于人工智能技术的发展与版权保护间的紧张关系和讨论迎来了一个新的重要节点。

2023年9月19日，美国作家协会以及包括《权力的游戏》原著作者乔治·R·R·马丁（George R.R. Martin）在内的17位美国著名作家在纽约南区联邦地方法院（N.Y. District South）递交起诉状对OpenAI发起集体诉讼（class action）。美国作家协会在起诉状中声称OpenAI在未经授权的情况下，使用原告作家的版权作品训练其大语言模型，使得其大语言模型可以基于这些未经授权的小说输出相应结果，并可能生成总结、复述、以及模仿这些作品的衍生作品。因此原告基于美国《版权法案》（Copyright Act, 17 U.S.C. § 101 - 810），声称OpenAI侵犯了原告作家的版权并且寻求获得赔偿。

美国作家协会及这17位作家在起诉状中提出了以下法律救济请求：

1)基于《美国联邦法院民事诉讼规则》第23条将本案作为集体诉讼进行审理；

2)将原告指定为诉讼集体代表（class representative），代表其版权作品被OpenAI用于训练其大语言模型的所有职业小说家；

3)将原告代理人指定为诉讼集体法律代理人（class counsel）；

4)禁止被告侵犯原告及诉讼集体的版权，包括但不限于停止将原告及诉讼集体的版权作品在未经明确授权的情况下用于训练大语言模型；

5)寻求被告向原告及诉讼集体赔偿a）其实际损失；b）被告从侵害中产生的盈利；c）律师及诉讼费用；以及d）按诉讼集体中每位作家每部被侵害作品15万美金计算的法定赔偿金（statutory damage）。

在起诉状中，原告提出了陪审团审理的请求。目前本案仍在审理中。根据最新案件状态显示，审前会议（pretrial conference）已于2023年11月29日举行。法院于2023年11月30日发布命令显示本案的证据开示（discovery）已于2023年11月6日开始。法院要求原告在2023年12月4日前递交修改后的起诉状，而被告需要在2024年1月12日前对原告修改后的起诉状做出回应。本文将对原告递交的起诉状中的重点内容进行总结及解读。

1. 美国作家协会的主张

OpenAI构成了版权侵犯

根据管辖纽约南区联邦地方法院所在区的第二巡回上诉法院的判例，为证明被告进行了版权侵犯（copyright infringement），原告需要论证1）被告存在实际复制了版权所有者的作品（actual copying）；以及2）被告作品与原告的作品中需要保护的元素存在实质性相似（substantial similarity）。实际复制可通过直接或间接证据证明，“若两部作品存在惊人相似从而排除被告独立行为的可能性，就算原告无法提供直接访问原作的证据，仍可证明被告存在复制行为”。

原告在起诉状中首先介绍了生成式人工智能以及大语言模型的原理。在其中，原告引用了美国专利与商标局（U.S. Patent and Trademark Office） 2020年发布于《关于人工智能及知识产权政策》的观点，描述大语言模型“几乎在定义上便涉及到对于整部作品或作品中关键部分的复制”。并声称“训练这一词汇是对复制和消化的一种技术上的委婉表述”。另外，原告还提到书籍是训练大语言模型的高质量文本材料。在起诉状中的其它部分，原告也将其叙述基调建立在反复强调OpenAI的复制与输出内容的实质性相似这两点上。

OpenAI存在主观故意侵犯

原告随后论证OpenAI存在对原告版权的主观故意侵犯（willful infringement）。根据第二巡回法院判例，为论证被告的侵权行为存在主观注意（willful），原告需要证明1）被告实际意识（actually aware）到侵害行为；或者2）被告的行为罔顾（reckless disregard）或者主观忽视（willful blindness）版权所有者的权利。根据美国《版权法案》中17 U.S. Code § 504（c）（2），若原告证明了被告的主观故意，法定赔偿金将提升至最多高达15万美金的金额。

为证明OpenAI存在主观故意将版权作品用于ChatGPT的训练，原告在起诉状中主要聚焦ChatGPT训练数据集的来源合法性，声称OpenAI承认其需要并使用了大量公开渠道来源的数据集，而该类数据集中包括了版权书籍。原告声称虽然OpenAI未公开发布ChatGPT训练数据集的准确来源，但OpenAI承认其训练数据集主要是通过网络公开爬取而收集的。并且部分训练数据集（例如Books2 数据集）可能包括从一些盗版在线书库，例如Library Genesis、LibGen、Z-Library等，下载的盗版电子书籍。考虑到电子书籍数据的有限性，以及ChatGPT不断升级迭代对于海量以及更复杂训练数据的需求，原告认为OpenAI不可避免地需要从这些在线盗版书库中获取相关数据。

原告还引证了ChatGPT可以生成版权书籍的原文片段。虽然目前ChatGPT已被改进，无法直接生成原文片段，但ChatGPT仍可生成版权书籍的梗概。原告声称该类梗概中包括了在文学评论及公开资料中无法了解的细节，因此这仍可证明OpenAI将整本版权作品用于训练模型。

根据美国《版权法案》中17 U.S. Code § 506，故意侵犯还可能构成犯罪行为而被告需要负刑事责任。证明刑事主观故意行为的一个要件是被告的行为是出于“商业利益或者私人盈利目的”。虽然本案为民事诉讼，但原告仍在事实陈述的部分强调了OpenAI通过人工智能模型获利的性质。原告在事实陈述开头部分列举OpenAI及其关联公司的创建历史以及利润强调了其通过人工智能模型进行商业盈利的性质。随后，原告介绍了OpenAI开发的几代ChatGPT产品，并再次强调了其通过收取会员费用以进行技术盈利的特质。

OpenAI的版权侵犯对原告及其他作者造成的损害

原告最后论证了ChatGPT对原告作者的损害，声称ChatGPT和大语言模型将严重威胁到作家的生计。原告列举了一些证据，证明ChatGPT将在未来取代大量的劳动力，并且作家通过版权作品、新闻报道及内容写作获得的收益将受到ChatGPT影响而减少。另外，原告认为ChatGPT生成的版权作品的梗概为版权书籍的衍生作品，并且ChatGPT还将生成其它类型的衍生作品，包括一些雷同的低质量小说，以及模仿小说作者口吻与ChatGPT对话的商业生态等。这类衍生作品也将对作者的生计和收入产生重要负面影响。最后，美国作家协会还提到其致力于捍卫美国作家的利益，并在之前写给OpenAI关于其威胁作家生计的公开信中已获取了超过12000名美国作家的支持。

原告成员的具体指控

除以上的共同事实主张，原告在起诉状中针对每一位原告成员的指控进行了详细描述。每一位原告成员的具体指控内容都运用了相似的逻辑以及叙述方式。以《权利的游戏》作者乔治·RR·马丁的具体指控为例，原告：

·提出马丁为15本已注册小说版权的所有者并且附上了注册信息。

·声称OpenAI在未取得授权的情况下非法故意复制马丁作品将其用于训练大语言模型。

·2023年7月，Liam Swayne利用ChatGPT生成了《冰与火之歌》系列最后两部马丁正在写作中的小说，并将其命名为《冬日的寒风》和《春日的梦想》。

·引用加州大学伯克利分校对ChatGPT的“记忆力”实验，其中ChatGPT对马丁《权利的游戏》的“记忆”程度位列第12名。

·声称ChatGPT能够准确生成马丁数本作品的梗概，包括《冰与火之歌》系列的前三部，《权利的游戏》、《列王的纷争》、和《冰雨的风暴》，以及《末日审判的布条》最终章。

·提到通过输入指示，ChatGPT可以生成未获授权的小说前传/续作大纲，例如ChatGPT使用《冰与火之歌》系列小说中的人物名字，生成了《权利的游戏》前传大纲并将其命名为《冰原狼的黄昏》，以及《列王的纷争》续作大纲并将其命名为《阴翳的舞蹈》。

·声称若OpenAI未使用被侵权的马丁作品训练大语言模型，则无法生成上述内容。

2. 本案提起集体诉讼的依据

美国集体诉讼制度简介

在美国，集体诉讼为单一或少数群体原告代表某类群体，基于相同事实或法律关系而提起的诉讼。将某一案件作为集体诉讼案件审理需要满足《美国联邦法院民事诉讼规则》第23条中的规定条件并得到法院批准。

《美国联邦法院民事诉讼规则》第23条（a）款规定，集体诉讼需要满足以下前置条件：

1)诉讼集体人数过多以至于将案件进行诉讼请求合并审理（joinder）不现实；

2)案件基于共同的事实问题或法律问题；

3)诉讼集体代表的主张或抗辩具有典型性；

4)诉讼集体代表将公正及恰当地保护诉讼集体的利益。

另外，发起集体诉讼还需满足第23条（b）款下的任意一种情况：

1)诉讼集体中的成员若选择单独诉讼可能A）导致不同判决的相互歧义或者矛盾，从而使对方当事人需要遵循不一致的行为准则；或者B）在诉讼过程中对没有参与诉讼的其他成员的利益加以处分，甚至妨碍他们权益的保护和实现的可能性；

2)对方当事人特定行为将对诉讼集体的多数成员造成广泛的影响，因此法院通过终局禁制令（final injunctive relief）或相当的声明（corresponding declaratory relief）可以对诉讼集体给予救济；或者

3)相较于个别诉讼集体成员的问题，诉讼集体的法律或者事实共同问题为主导问题；而且在所有可以采用的争议解决方法中，集体诉讼在公正及有效性方面优越于其他任何方法。

最后，《美国联邦法院民事诉讼规则》下第23条（c）（4）款还为未满足第23条（b）（3）款的情况提出了事项批准（issue certification）的替代方案。即，若集体诉讼案件的主导问题未被批准，当事人可“在适当的情况下针对特定的事项提请集体诉讼”。但不同联邦巡回法院对于此条的适用性情况存在不同的理解。

本案应作为集体诉讼审理的依据

在本案中，原告将诉讼集体定义为“所有在美国境内的自然人且1）其为一项或者多项符合条件的版权作品的唯一作者或者唯一合法/实益拥有人或者2）其为文学遗产管理会（literary estate）所管理的一项或者多项符合条件的版权作品的唯一作者或者唯一合法/实益拥有人”。符合条件的版权作品包括“任何在首次出版前或首次出版五年内在美国版权局注册的版权作品，并且其有效的注册日期为作品首次出版3个月内或者在被告将作品用于训练其一个或者多个大语言模型之前”。

原告在起诉状中声称本案满足了23（a）的前置条件。原告提到诉讼集体涉及到千余名自然人，并且其身份可以被客观确认。此外，诉讼集体的作品都以同种方式被侵害，并且成员都有实质性相同的防止未来侵犯和寻求赔偿的利益，因此原告的主张具有典型性。最后，诉讼集体拥有共同的事实和法律问题，包括1）被告是否用其作品训练大预言模型；2）被告复制原告及诉讼集体的作品是否具有《版权法案》下定义的直接、替代或辅助侵权责任；以及3）被告复制原告及诉讼集体的作品是否为主观故意。

原告认为本案满足了23（b）（2）、23（b）（3）以及23（c）（4）的情况。原告提到被告将所有被告及诉讼集体的作品在实质上以相同的方式用于大模型语言的训练。并且，相较于成员个体的损失，关于被告侵权责任的问题为主导问题。法院需要对被告针对原告及诉讼集体的相同行为基于同一法律进行判断。此外，原告法定赔偿金的法律救济请求为针对所有诉讼集体成员的救济。若将此案单独审理将导致对于同一法律问题进行重复性的判断，从而浪费法律资源，因此选择集体诉讼解决争议为最优解。最后，原告补充到若侵权责任问题不是主导问题，而集体诉讼请求无法基于23（b）（3）的情况被批准，原告仍希望基于23（c）（4）款将侵权责任这一事项进行集体审理。

美国作家协会起诉OpenAI版权侵权案解读

美国作家协会起诉OpenAI版权侵权案解读

你知道你的Internet Explorer是过时了吗?