人工智能大模型侵权！谁来保护知识产权？

扫描分享

本文共字，预计阅读时间。

2020年，作为我国知识产权法律体系两大支柱的《专利法》与《著作权法》先后进行了修订，与2019年即获得修订的《商标法》一并，对沿用了近十年的知识产权体系进行了与时俱进的完善。然而，2021年8月，OpenAI上线了其在今天已经深刻改变了业界生态的人工智能产品——ChatGPT，带领人工智能大语言模型（Large Language Models，简称LLMs）站上了时代的风口浪尖。

如今，世界范围内人工智能开发者的竞争已愈发激烈，世界各国与人工智能相关的立法活动也随之而愈发频繁。在这样一个充满了创新与探索的时代，我国知识产权领域的三部法律却微妙地错过了“时代的热点”，导致我国现行的知识产权保护体系并未将LLMs纳入考虑范围之内，让这位“百模大战的主角”坠入了法律保护的真空之中。

关于生成式人工智能（AIGC）对现行知识产权法律体系的挑战，飒姐团队已经与大伙进行过多次探讨，今天，就让咱们从人工智能大模型的本身出发，聊聊这位“主角”的相关权益。

LLMs也会面临侵权风险吗？

一直以来，在知识产权语境下，我们对于AGI技术，尤其是AIGC技术相关知识产权问题的关注，始终集中在其生成物的相关权属上。而事实上，AI本身亦属于人类智力活动的成果，当其被予以公开，也同样会受到一系列侵权风险的威胁。

1、数据窃取

数据窃取是LLMs开发者所面临的最常见威胁之一，其可分为“抽取式攻击”和“复制式攻击”两类：

“抽取式攻击”是指攻击者通过访问目标模型的接口或者采用黑盒攻击的方式，向模型输入一些特定的数据，从而提取和收集特定方向的输出结果。通过大量的输入-输出操作，攻击者便可从大模型中提取出模型的结构、权重以及其他重要参数信息，而将这些数据用于新模型的训练，则很容易就可以获得与原模型相似的“全新模型”。

“复制式攻击”则是指攻击者假装对LLMs进行训练，获取训练过程中产生的目标模型的训练数据集或者中间结果，然后使用这些数据对自己的模型进行训练，从而获得与原模型相似的模型。经过大量的计算资源和时间的投入，攻击者甚至可以做到将原模型的数据“掏空”，直接复制出功能和性能别无二致的“双胞胎”。

2、代码抄袭

现阶段，绝大多数AIGC大模型的开发都采用了开源的方式。此前，飒姐团队已经在《开源才是未来？AI大模型，共享=共赢？》一文中开源大模型的优势进行了较为详细的论述。[1]而采取开源模式的开发团队高度依赖社区构建，其通常会主动将团队开发的代码发送至相关社群网站，供团队外感兴趣的研究者们随意下载，以共同完成AIGC的训练等后续开发工作。如著名的第三方软件项目托管平台GitHub，即汇聚了1亿以上的开发人员，400万以上组织机构和3.3亿以上数据资料库。但开放代码在一定程度也意味着开发者将自己的“命运”交给了不特定的业内同行，其中当然也包括对其研究成果虎视眈眈的竞争对手们。因而，开源开发者实际上不可避免地会遭受代码抄袭的严重风险。如2023年11月，国内“AI教父”李开复旗下的AI大模型创业公司“零一万物”就陷入了抄袭的风波之中，其发布的Yi-34B和Yi-6B两个开源大模型遭到了Hugging Face开源主页上其他开发者的质疑，认为其直接套用了Meta公司大模型LLaMA的架构，仅对两个张量（Tensor）名称进行了修改。虽然事后“零一万物”在社交媒体上对其“抄袭”行为进行了澄清，并解释代码相同只是其为测试模型目的沿用LLaMA部分推理代码后的疏忽。但这一事件也充分暴露出了开源大模型圈子内，利用他人代码“套壳”开发LLMs现象的普遍存在。

此种情况下，开源开发模式变为了一把双刃剑，出于开源的考虑，开发者不可能在公开代码时遮遮掩掩，但一旦将代码全部公开，就犹如将自己的智力成果拱手让人。

3、违规训练

同样，在任何人都可以参与进来的开源开发模式下，训练LLMs所使用的数据亦是开发者很难完全掌控的。训练的数据越多，LLMs的开发效果也就越好，这对于所有开发者而言都是一个现实的需求问题。但其另一个老生常谈的方面则是：没有任何人能够确保用于训练的数据完全合法合规。倘若只是参与开发的用户使用了违法或侵权的数据进行训练，开发者尚可以通过“开源减免责任”等制度层面的优惠来豁免自身的责任，但若他人恶意对其LLMs进行“投毒”，开发者所面临的则可能是全部努力付诸东流的惨痛后果。如最为典型的“AI投毒攻击”，即攻击者通过在训练数据中加入精心构造的异常数据或虚假数据，破坏原有的训练数据概率分布，导致模型在某些条件下产生分类或聚类错误，以破坏其训练数据集和准确性，最终导致大模型在特定点上的功能失灵。

现有体系能否保护LLMs开发者的权利？

这一问题的答案很大程度上取决于对另一个问题的回答，即知识产权法律视角下的LLMs是什么性质？

由于构成人工智能实体的基本元素是程序代码，从形式上可以将其看作是一种“算法”，但问题是，现行的知识产权法律制度框架之下，只有《著作权法》第三条分类中列举的“计算机软件”，却并没有对于“算法”这一客体类型的明确规定。在著作权法的框架下，受到保护的实际上并非是算法的核心思想，即为了通过计算机达到某种目的而进行的编程行为。其所关注的只是算法的表现形式，也就是那些被写在程序里，具有独创性的代码。因此，传统的版权保护在应对智能化时代对算法保护的需求时就显得捉襟见肘，当侵权者绕开算法的“代码表现形式”，而采用其他代码编译相同“算法”时，其即可绕开著作权的保护，肆无忌惮地侵害相关开发者的权益。

而另一方面，在专利法的框架下，由于生成式人工智能的算法本身在概念与理论上具有抽象性，因而在传统实践中“算法”一般被归类于《专利法》第二十五条第二项中所规定的“智力活动的规则和方法”，其不能被授予专利。虽然国家知识产权局于2023年12月21日发布了新修订的《专利审查指南》，其中已经在第二部分第九章中增加了第6节，对“包含算法特征或商业规则和方法特征的发明专利申请审查”进行了规定，对涉及人工智能、“互联网+”、大数据及区块链等行业的规则和方法的发明专利申请作出了规定。在世界范围内，如欧洲《人工智能法案》（AIA）、日本2018年《著作权法》修正案等也专门就人工智能这一智力活动成果所遭受侵权的保护进行了先导性的规定。但从实践层面上看，当前对于LLMs采用专利方式进行保护的途径仍不十分明朗。

整体上而言，人工智能的知识产权保护，在世界范围内仍是一个有待达成统一和司法共识的问题。为避免陷入“处罚诚实者，鼓励作假者”的道德困境，现有的知识产权法律体系框架需要进行较为全面的调整。

LLMs的权利保护与知识产权体系的变革

人工智能的发展已经触及到了既有知识产权保护体系的核心，正如世界知识产权组织总干事邓洪森先生在2020年11月4日的讲话中所提到的那样，人工智能的发展对现有知识产权体系提出了大量相互关联的问题，需要采用横向的方法，不应该从单个知识产权的角度来看待人工智能带来的问题，而应从整个知识产权体系的角度来整体看待这些问题。

实际上，知识产权法律体系始终处在扩张的过程中。从人类开始进行工业化的活动，现代知识产权保护的客体就随着机械、电子、化学、物理等技术与科学的研究而不断迭代更新。其中，著作权的扩张最为明显。受保护的客体不断增加，著作权的保护范围亦不断扩大。在世界上第一部保护著作权的法典《安娜女王法》中，受保护的客体还只限于文字作品，到美国1790年通过的第一步著作权法中,保护的客体就已经扩展至了图书、地图和图表，以防止作者的作品遭到擅自印刷。而后，著作权所保护的客体逐渐扩大至新出现的摄影作品、电影作品、录音录像作品、计算机软件作品等新的作品类型。这种客体的扩张在很大程度上是技术，特别是传播技术发展的结果。技术的发展产生了在先前著作权法中曾没有保护的客体,由于在新的环境下不受限制地自由使用会对这类技术的发展构成严重妨碍,各国都注意通过修改著作权法的方式扩大作品的保护范围。[2]加之我国著作权法的框架体系中已经包含了“计算机软件”这一广义上的“同类”，将相关技术理念与法学理论进行进一步的对应与啮合，就目前看来，似乎是一种较为实际的探索方向。

立法不是保护的终点而是起点。通过扩张作品、发明类型，设立生成式人工智能系统使用费知识产权回馈机制、简历数字化内容使用集中清算制度，重构数字化合理使用制度，以及增加非人工智能生成举证责任负担方式平衡人工智能技术发展与知识产权制度的矛盾；鼓励在人工智能大模型保护中使用区块链、数字水印等技术。通过技术与法律结合，来解决新技术所带来的矛盾与挑战。

写在最后

从知识产权制度400余年的发展历史上看，知识产权制度的核心在于促进知识和信息的运用和传播。本质上讲，知识产权制度的存在即鼓励人类智力成果创新与传播的工具。随着新技术的出现和应用，法律体系也随之进行迭代，法律的理解和适用也随之进行突破，在AI为我们开启的未来时代，这种倾向也愈发变得明显。无应用则无权利。

[1] 参见肖飒团队：《开源才是未来？AI大模型，共享=共赢？》，https://mp.weixin.qq.com/s/KOnLuGxSIlYFOrK11IlIMA。

[2] 参见冯晓青：《著作权扩张及其缘由透视》，政法论坛，2006年第6期，第74-87页。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文版权归原作者所有，如有侵权，请联系删除。首图来自图虫创意。