必读好文！使用作品训练人工智能合法性初探

近日，国内外发生了多起人工智能研发者与作品权利人之间的纠纷，比如纽约时报诉Open AI版权侵权、小红书用户诉小红书版权侵权等案件。究其原因在于人工智能的研发依赖于使用海量作品训练人工智能，以实现“机器学习”。训练的目标是使人工智能从数据样本中尽可能学到适用于所有潜在样本的“普遍规律”，让人工智能在遇到新样本时做出正确的判别。为了更好地找到普遍规律，需要大量且多元的权利人作品作为分析对象，这不可避免地需要读取权利人作品，其间可能需要在服务器中复制作品，建立供训练所用的数据库，由此涉及对作品的复制，并产生了此种复制行为是否构成著作权侵权的问题。

合理使用成共识

像人工智能机器学习这样需要技术性复制大量作品的情况并非首例，随着技术发展，出现如缩略图、谷歌数字图书馆、数据挖掘等新型的利用作品行为，这些行为都需要通过爬虫技术大规模复制作品，但复制目的并不是为了利用作品的表达内容，而是为了搜索索引、片段阅读、寻找共性等。国内外都有相应的著作权纠纷案件，且看法较为一致。美国认定这种行为构成“转换性使用”，符合合理使用，不构成著作权侵权。美国联邦最高法院在首次采用转换性使用的判决中，将转换性使用定义为“以不同目的或方式使用作品，并在原作品基础上增加了新表达、新意义或新功能”。美国的HathiTrust案中，为了对书籍进行全文搜索，图书馆必须首先创建整本书的数字副本，该行为毫无疑问构成版权复制，但是法院认为该复制行为只是为了获取有关作品的元信息，而非从作品中的表达中受益，构成“转换性使用”，因此判定不构成著作权侵权。在后续案件中，美国法院将传递扫描图书信息的输出与传递其表达的输出区分开来，裁定类似数据挖掘使用和缩略图视图这样的技术性复制都没有利用作品的表达价值，构成“转换性使用”。

与美国版权法第107条规定了供法院在个案中灵活判断某种未经许可利用作品的行为是否构成“合理使用”的四个要素不同，我国著作权法第二十四条穷尽式地列举了十二种无需经过许可和付酬的权利限制情形。制作和提供缩略图、网页快照并没有直接落入其中任何一种情形，唯一与其相近的是“为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品”的“适当引用”。但我国著作权法要求“在作品中适当引用”，即必须在引用者自己创作的新作品中引用，而制作和提供缩略图、网页快照并不符合这一条件。

对此，《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》：“网络服务提供者以提供网页快照、缩略图等方式实质替代其他网络服务提供者向公众提供相关作品的，……不影响相关作品的正常使用，且未不合理损害权利人对该作品的合法权益，网络服务提供者主张其未侵害信息网络传播权的，人民法院应予支持。”与此同时，《最高人民法院关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》也指出：“在促进技术创新和商业发展确有必要的特殊情形下，考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果该使用行为既不与作品的正常使用相冲突，也不至于不合理地损害作者的正当利益，可以认定为合理使用。”这就为将制作和提供缩略图、网页快照及类似行为认定为可适用权利限制的情形提供了一定程度的灵活性。

允许使用促进发展

人工智能机器学习作为一种技术性复制大量作品的行为，如果也和制作网页快照、缩略图一样，通过将作品复制到服务器中，建立了作品的数据库，则其行为并未直接落入我国著作权法第二十四条规定的十二种情形中。它既不是为个人学习、研究和欣赏而复制作品，也不属于为介绍、评论某一作品或者说明某一问题，在作品中适当引用。但是，此种行为具有转换性。在算法设计合理的情况下，复制作品的目的是提供机器学习的原始素材。人工智能在接受训练之后，只会学习作品中的风格和内容生成的规律，通常不会直接输出与在先作品在表达上实质性相似的内容。换言之，作为训练素材的在先作品如果是文字作品，其文本词汇会被转换为在特定上下文中的概率分布或其他相关信息，美术和摄影作品的图像会被转换为每个图像空间分布上的概率或其他视觉特征，作品本身的表达无从体现，作者对思想和情感的表达被压缩变换为目标分布空间的离散概率质量分布。因此，这种为训练人工智能而进行的复制不是为了在人工智能生成的内容中直接再现在先作品的实质性表达。如果该生成的内容确实起到了对在先作品的“替代”效果，也不是因为存在表达上的实质性相似，从而导致了观赏体验与市场价值的趋同，而是基于相同的风格、理念等不受著作权法保护的要素，以及在市场看来独特的品质。因此，仅仅在训练人工智能时复制作品，对作品正常利用以及对权利人利益的影响程度都是有限的。

与此同时，对于使用作品训练人工智能行为的定性问题，还需要考虑我国的国情。目前，世界各国都在讨论这一问题。如果欧美国家的立法或司法判例最终确认，为训练人工智能而使用作品需要经过权利人的许可和支付许可费，这一要求在欧美国家具有实现的可能性。因为欧盟国家大量本领域的作者都已经加入了相关的集体管理组织，当人工智能的研发者需要利用某一领域的作品训练人工智能时，可以从集体管理组织获得许可。美国虽然只对音乐作品有集体管理，但是美国传统上有集体谈判机制。如代表编剧的工会就能代表编剧与好莱坞谈判，协商编剧的报酬和分成，也相当于发挥了集体管理的作用。

我国的现状是，有大量相关领域作品的作者和其他权利人都没有加入集体管理组织。如果我国把训练人工智能时对海量作品的复制认定是需要经许可才能实施的行为，否则构成侵权，试问人工智能的研发者如何才能获取海量作品的许可呢？在无法获得许可的情况下，为了避免侵权，恐怕只能停止对海量作品的利用，只能使用数量极其有限的、经过许可的作品，这不仅会影响我国生成式人工智能技术的发展，也会因可供训练的作品素材过少而降低人工智能生成内容的质量，导致愿意使用国产生成式人工智能的用户数量下降。

在人工智能技术与应用的不同阶段、不同时期，应当有与当时的社会经济条件和国情相适应的政策。在目前国际间激烈的技术竞争格局下，促进我国生成式人工智能技术的发展应当成为首要的政策目标。为此，在人工智能算法设计本身合理，确保生成式人工智能生成的内容不会常态化地与在先作品实质性相似的前提下，允许使用作品训练人工智能似乎是较为合适的政策选择。

当然，政策制定者不能忽视作者们对这种使用其作品训练人工智能公平性的质疑，以及对人工智能生成的内容可以在一定上程度上取代人类作品（但非著作权法意义上的“实质性替代”）的担忧。毕竟法律制度的设计应当回应每一个社会群体对公平分配利益的合理诉求。从长远来看，完善集体管理机制，使得具有广泛代表性的集体管理组织能够代表各类作品的权利人与人工智能的研发者协商使用作品训练人工智能的合约，当然是最佳的选择。而在此之前，在条件成熟时，引入类似“私人复制补偿金”的机制，使得被用于训练素材的作品的作者能够获得公平的补偿，是政策制定者可以考虑的方案。

文章来源：中国知识产权报