×

打开微信,扫一扫二维码
订阅我们的微信公众号

首页 锦天城概况 专业领域 行业领域 专业人员 全球网络 新闻资讯 出版刊物 加入我们 联系我们 订阅下载 CN EN JP
首页 > 出版刊物 > 专业文章 > GPT模型生成物能享有著作权吗?运用「全知能」概念进行分析

GPT模型生成物能享有著作权吗?运用「全知能」概念进行分析

作者:刘民选 杨高翔 丁如歌 2023-03-26
[摘要]ChatGPT无疑是2022年底至今,人们生活当中最火热的话题之一。其突出的理解能力、渊博的知识储备和流畅的自然语言表达折服了众多人类用户。关于GPT模型的技术、政策、伦理、法律分析文章已经数不胜数,而在本文中,笔者就ChatGPT的回答(GPT模型生成物)的著作权问题提出一种全新的分析路径——运用「全知能」概念进行分析。

ChatGPT无疑是2022年底至今,人们生活当中最火热的话题之一。其突出的理解能力、渊博的知识储备和流畅的自然语言表达折服了众多人类用户。关于GPT模型的技术、政策、伦理、法律分析文章已经数不胜数,而在本文中,笔者就ChatGPT的回答(GPT模型生成物)的著作权问题提出一种全新的分析路径——运用「全知能」概念进行分析。


一、GPT是什么?我们为什么要关注它的生成物?


(一)GPT模型及其应用简介


为方便读者,笔者对GPT模型进行简要介绍。GPT模型,即Generative Pre-trained Transformer(生成式预训练转换器),是美国OpenAI公司推出的一种自回归语言模型。其属于人工智能一重要分支,即自然语言处理(Natural Language Processing, NLP)下的一种具体实现方案。GPT模型和其他技术方案不同的NLP模型都致力于让计算机能够理解、解析和生成人类语言。近年来,ChatGPT和InstructGPT等基于GPT模型的产品已具有相当的实用性,被试验性地用于聊天娱乐、内容搜索、文章撰写、代码生成等领域。


(二)GPT模型生成物带来的著作权争议


GPT模型生成物来源于GPT模型,GPT模型的语料则来源于海量的互联网语料库。具体而言,在超高算力的支持下,GPT模型通过“摄入”海量语料库进行预训练,并被人类标注员纠正,使其具备自然、流畅且包含着基本正确信息的语言生成能力。然而,随着其在公众视野中的广泛应用,关于GPT模型及其生成物的侵权风险、法律地位和权利归属问题也引起了广泛关注。


要回答这三个问题,都绕不开对GPT模型及其生成物的法律定义。有不少人认为,因为我们已经难以从人类创作的文字及图像作品中区分GPT模型生成物,且难以从GPT模型生成物中找到其对应的训练材料,因此GPT模型的生成物有相当的“创造性”,是著作权客体,且GPT模型本身也应当被认为是著作权权利人;同时也有相当多学者考虑到,GPT模型生成物其实完全由人类提供的语料库转化而成,且自身也是人类的创造物,因此不仅现在的GPT模型生成物不应该被授予著作权,以后出现的其他NLP模型和人工智能技术的生成物也不应当被著作权法保护。笔者同意后者的观点,但提出一种全新的分析路径。


三)笔者的分析路径


与目前的学术界和实务界已经比较完善的“人类的立法保护人类的权利,但GPT模型不是人,因此它的生成物不应受到人类立法的保护”的三段论式目的性分析路径不同,笔者认为若要说明GPT模型生成物不是著作权客体,还可以从GPT模型的自身特性、创作过程及知识产权系列法律的规定中入手论证。即,GPT模型生成物不是著作权客体并不仅仅因为“作者”GPT模型不是自然人,更是因为GPT模型“学习”的过程与人不同,创作的方式也并非“从无到有”,不具备含有《著作权法》中“独创性”和《专利法》“创造性”之内涵的创造能力。


为能进行这样的论证,笔者需要使用一具体概念辅助推理过程。因此,本文的分析将从为GPT模型及其类似物找寻合适的虚构概念入手。在精准定义概念后,笔者将结合现行中国《著作权法》中的概念对GPT模型生成物在著作权法中的地位进行分析。除此之外,笔者还将讨论“不适宜为GPT模型生成物赋予著作权”的其他考量因素,以及对著作权法保护客体的再思考。当然,法律与现实的关系永远是“应然”与“实然”间的你追我赶;笔者既希望能深入GPT模型这一新事物的实质提出一种具体的法律分析路径,也希望能在新浪潮中向业界同仁抛砖引玉,引得百花齐放。欢迎业界同仁不吝批评指正、共同交流进步。


二、移植《专利法》概念对GPT模型进行限定


(一)《专利法》中“所述领域的技术人员”之概念


笔者首先介绍《专利法》中“所述领域的技术人员”之概念。在2021年版《专利审查指南》中,“所述领域的技术人员”被定义为“一种假设的‘人’,假定他知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,但他不具有创造能力。如果所要解决的技术问题能够促使本领域的技术人员在其他技术领域寻找技术手段,他也应具有从该其他技术领域中获知该申请日或优先权日之前的相关现有技术、普通技术知识和常规实验手段的能力”。


可见,“所述领域的技术人员”是《专利法》中一个抽象且虚构的概念,主要用于为发明创造性的评价过程提供稳定的标准,但其“全知、会基本的组合却完全不会创造”的特性使笔者灵光乍现:为何不借用此概念对GPT模型的特征进行假设性描述?


(二)为GPT模型重塑“所述领域技术人员”之概念


为将“所属领域技术人员”之概念套用于GPT模型上,笔者对该概念进行了重塑。首先,由于GPT模型的语料库就是GPT模型的所属领域,我们可以认为其熟知语料库内所有知识,能够查阅和理解所有语料库内文献的能力,也掌握并能应用该语料库之内包括的组合和分析方法。其次,目前还未有GPT模型产生人类情感和自由意志的证据,我们可以认为GPT模型本质上是无法从无到有进行创造的机器,其输出的内容在语料库中必有某种形式的源头。最后,考虑到最新的ChatGPT产品中提供给GPT模型的语料库已经覆盖2021年之前的几乎所有互联网上的内容,我们可以认为GPT模型有着能熟知互联网上所有内容、知识、文献、方法的能力。


出于上述的原因,笔者提议,对GPT模型应当选用比“所属领域技术人员”更恰当的描述。这一描述不仅应当反映GPT模型的特性,还必须能反映出大众对GPT强悍实力的认可和敬佩。因此,笔者提议命名其为「全知能」。「全知能」与“全智能”虽仅有一字之差,但其体现出的恰巧是GPT模型与你我他这样的自然人最大的区别:GPT模型知晓其语料库内的所有信息和知识,但自然人的知识储备总是有明显局限;自然人可以灵光乍现后创造出令所有同类大呼“前所未见”的新表达,而GPT模型只有经过训练和用户输入的提示,才能对外输出它的生成物。


(三)GPT模型不具有任何意义上的创造能力


在深入讨论GPT模型与「全知能」概念之间的关系前,笔者认为需要明确一点:GPT模型不具有任何意义上的创造能力,包括专利法意义上的创造性和著作权法意义上的独创性。专利法中的创造性要求一个发明在技术上相对现有技术具有显著进步,而著作权法的独创性则要求作品表现出作者独特的创作思维。然而,GPT模型基于其训练数据生成内容,不能产生超出已有数据范围的全新创意或独特观点。


GPT模型与创造性的关系


尽管GPT模型能够在短时间内生成大量内容,但这些内容仅仅是现有数据的重新组合。这种组合虽然可能在某种程度上看起来新颖,但它们无法达到专利法所要求的创造性标准。即使GPT模型在某些情况下能够生成看似独特的解决方案,但这些解决方案仍然是基于已有的知识和数据,而非全新的技术创新。


GPT模型与独创性的关系


著作权法保护的是作品的独创性,即作品必须表现出作者独特的创作思维。然而,GPT模型是一个基于数据驱动的算法,其生成的作品并不反映任何一个特定作者的独特思维。相反,GPT模型生成的作品是由大量现有作品的碎片拼凑而成,因此不具备独创性。


(四)「全知能」概念的意义


您可能会好奇,为何笔者要创造「全知能」这一概念对GPT模型进行概括性描述?首先,尽管「全知能」的假设或许在未来的某一天会被打破,但该概念目前能够在技术上较好地概括和描述GPT模型的特性:正如「全知能」三个字中没有出现“人”,“GPT模型不是人”的实质因此得到凸显;“全知”代表了GPT模型“熟知”的知识总量远超任何人类一生所能企及的总量且它具有超快的筛选和分析能力;“能”则表示GPT模型能够用多种人类能够直接理解的形式(包括但不仅限于文字、图像)对其重新组合后的有用信息进行呈现。「全知能」因此是对GPT模型特性的精准总结。


在此之外,「全知能」这一概念在实践中也大有用处。其能够提供一种便于推理和论证的、隔离具体技术实现方式和技术细节变化的、能够减少理解困难的、概念外延清晰的虚构概念,极大地方便了我们对GPT模型及其生成物进行法律分析。正因为如此,笔者才能与对这一分析路径感兴趣的通融进行高效的沟通交流;司法实践中对技术概念不了解的人员也能快速掌握GPT模型的精髓;「全知能」的概念还能允许我们在人工智能的风口浪尖上对包括著作权在内的各大知识产权领域进行一些从零到一的思考。笔者希望能用「全知能」的概念向大家阐述笔者的思路,同时也希望能启发各位读者一起集思广益。


三、对GPT模型生成物的著作权分析


(一)现行《著作权法》中“独创性”的概念


在《著作权法》领域中,“独创性”的概念对判断某一作品应否受到《著作权法》保护而言至关重要。然而,这一“独创性”概念本身的定义却并不清晰:有的学者认为“独创性”一方面要求作者“独立”完成作品,另一方面要求作品是作者“创造性”智力劳动的结果;有的学者又认为,“独创作品”只需要排除作者剽窃、抄袭得来的作品。在“创造性”有与无和高与低的问题上,一些学者认为“创造性”问题只需讨论有无,不必讨论高低;也有一些学者认为具备“独创性”的作品所表现的思想、观念、情感等要能够使人产生独特的认知和感受。


在各异的观点中求同存异后,“独创性”的最小概念可被归纳为:独立创作的作品当中至少需要包含一丝创作者“创造性”智力劳动的成果。在如此确定“独创性”的最小概念后,就可以对「全知能」生成物与人类作品进行“独创性”比较。


(二)比较GPT模型生成物和人类作品的“创作过程”


人类的表达并非都是著作权法意义上的作品,原因就在于人类有相当一部分的表达都不具备“独创性”。举例而言,人类社会中的礼貌用语和交互的指令等都直接源于意识对表达方式的调用,并不包括创造的部分。人类在回答问题时,通常也会检索脑海中、互联网上和书本中现有的事实性知识,在总结后发表“自己的回答”。虽然在部分前沿问题当中,“自己的回答”可能包括答题人创造性的思考结果,人类对大部分问题的回答却几乎只是“事实”+“倾向性”的组合,并没有运用创造能力,不包括“创造性”的内容。


「全知能」能够取得成功的原因也恰在此处。「全知能」的代表产品ChatGPT在理解用户的问题后,就能运用经过海量数据训练的GPT模型调取出用户需要的事实性知识,并将大量的碎片化的事实性知识通过自然语言处理能力重新转化成人类能直接理解的自然语句。在该过程中,「全知能」就像一个知识极其渊博的“人”,能够在毫秒间向用户提供整合好的回答语句,并根据训练内容附上人类最亲切的“我觉得……更好”的感想。全知如此的一句评论,虽然能让用户体验显著提升,却也正是误导人类对「全知能」及其“作品”进行正确评估的“罪魁祸首”。若能抛开这种“「全知能」很像人”的滤镜,就能看到「全知能」非人的真面目。


(三)「全知能」生成物不具有独创性,不是著作权客体


「全知能」的生成物只是「全知能」从海量数据库中采集多个要素后按人类习惯重新组合要素后的表达,其不包括“从无到有”的创造过程,不具有“独创性”,自然不是著作权客体。一方面,「全知能」组合知识和信息要素的过程,本就是在海量语料库中进行检索的过程,难言“独立”,更不用说“从零开始”;另一方面,「全知能」提供的信息本就全部存在于语料库当中,并不因其被复杂地重新组合过,就能谈得上是“创造”。


当然,笔者也预期读者可能对笔者结论持有反对意见,包括:人类如果能提供和「全知能」生成物同样水准的回答的反馈,一定会被认为有“独创性”,为何不认为「全知能」生成物有“独创性”?作者(也就是笔者)用这个概念论证「全知能」没有创造能力,是不是意味着汇编作品等著作权客体,因实际上也只是组合的结果,因此也不应享有著作权?作者是不是对技术进步太过轻视且对自己的假设太过自信?对于最后一个质疑,笔者希望重新明确:「全知能」的虚构概念只是为方便边界清晰、概念明确地进行法律分析,并非意图用一个虚构概念改变现实世界。对于前两个问题,笔者将在下文继续讨论。


四、不应以著作权保护GPT模型生成物的其他考量


(一)避免「全知能」生成物的语料的著作权纠纷


在大多数情况下,「全知能」在与用户一对一的“交流沟通”中,将不可避免地引用受《著作权法》保护的语料。使用人或开发者可主张「全知能」在向用户回答问题时,应被视为正在“介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”的“一般通用人员”;其回答是“一般通用人员”的“渊博知识”的集中体现(尽管实际上则是「全知能」从海量数据中选择而来),可主张“合理使用”,因此无须经过著作权人许可,不向著作权人支付报酬,也就不会产生开发者、使用人和语料著作权人之间错综复杂的著作权纠纷。


从反面看,若把「全知能」生成物认定为《著作权法》上的作品,著作权许可和侵权纠纷将如影随形。试举一例,如果将「全知能」的生成物认为是享有著作权的汇编作品,就需要「全知能」生成物的作者(不必然是「全知能」,下文将讨论)取得享有著作权的语料的著作权人的许可。然而,考虑到互联网语料库中包括海量的作者、保护期限、适用法律各不相同的著作权客体,这样的许可从数量上来说几乎是不可能取得的。


在这样的背景下,当自然人发表「全知能」生成物时,可能会面临一系列著作权纠纷风险和问题。由于「全知能」生成物是基于大量训练数据生成的,其中可能包含受著作权保护的作品。自然人在发表这些生成物时,可能会涉及对原始著作权人权益的侵犯。例如,「全知能」可能在生成物中引用受保护的文学作品、图片或音乐等。在这种情况下,自然人需要谨慎对待,以避免侵犯他人著作权。在某些情况下,自然人可能会主张「全知能」生成物的合理使用。合理使用通常涉及对受保护作品的部分引用、评论或研究等,而无需获得著作权人的许可。然而,合理使用的界定因国家和地区而异,因此自然人在发表「全知能」生成物时也需要关注适用法律的具体规定。


综上所述,结合自然人在发表「全知能」生成物时存在的可能著作权纠纷风险和问题,为避免「全知能」生成物的语料的著作权纠纷,「全知能」生成物因此以不享有著作权,主张“合理使用”为更实际的选择。


(二)为GPT模型生成物赋予著作权可能导致的问题


若要为「全知能」生成物赋予著作权,就需要确定著作权人,然而这一步就已经难于登天。著作权人的“候选人”有三位——开发者、使用者、语料著作权人。就「全知能」开发者而言,其可能是商业公司,也可能是个人,但无论其组织形式如何,若要成为著作权人享有著作权,就必须同时承担著作权人的义务。著作权人的义务包括但不仅限于上段所述的取得语料著作权人许可的义务和向语料著作权人支付报酬的义务。考虑到「全知能」的落地产品,例如ChatGPT,目前的日活跃用户已经稳定在一亿之上,这样的处理模式已经不具备可行性。若让使用人享有「全知能」生成物的著作权,也会有这样的问题。至于将生成物的著作权赋予语料著作权人共有,也会因为权利人过多、分布过广,造成难以实践的问题。


假设一方享有著作权,我们还会面临严重的著作权滥用问题。「全知能」的内容生成速度远非自然人能够企及。如果法律规定某一方享有「全知能」生成物的著作权,著作权人将会有极大的动机运用「全知能」穷尽式生成“作品”并主张著作权。可能出现的滥用问题又会带来更多的法律争议,或许不赋予生成物著作权才是最“一劳永逸”的做法。


(三)为「全知能」赋予著作权权利人资格的困难


让「全知能」成为著作权权利人存在多重障碍。在各国的现行法律法规中,著作权人的概念依旧仅限于法人、非法人组织(如果该国有这一概念)和自然人。这样的限定不仅源于著作权法的立法目的,即保护作者在创作过程中的付出和促进文学、艺术和科学的传播,还植根于民法中对民事主体的定义。如果意欲让「全知能」成为著作权人,需要解决的问题则数不胜数:「全知能」不在宪法和民法的保护范围内、其没有民事行为能力、没有责任财产……


更重要的是,若要让「全知能」成为其生成物的著作权人,其实质上就是要求法律制度承认人工智能模型具备和自然人至少接近的民事主体资格。如此翻天覆地的法律变动几乎等于承认我们已经进入一个人与人工智能、机器人完全平等地共处于一个社会的时代,但请您看看周围,这样的时代尚未到来。在未来到来之前,保持排除「全知能」作为著作权人的可能性依是充分发挥法律现实价值的最佳方案。


五、总结


随着ChatGPT自2022年年底以来的爆火,与其相关的诸多法律问题都引起了社会和业内的广泛关注。笔者在本文中提出一「全知能」的概念,希望借由此概念启发业界同仁从与GPT模型及类似的人工智能模型的共同特征入手,将日新月异的技术发展和纷繁复杂的概念变革“装入”到「全知能」这一确定、清晰的虚构概念中,并在此概念之上对GPT模型及类似的人工智能模型带来的各类知识产权问题进行讨论和分析。尽管笔者在本文中仅仅试以「全知能」的概念对其创造能力及其生成物的著作权问题进行了讨论,但笔者坚信「全知能」的精炼概念在后续其他知识产权领域法律问题的分析讨论中仍有尚未被发掘出的益处。


当前,司法系统在应对人工智能技术带来的挑战时,仍主要依靠“目的性解释”工具在现行法律框架内通过“排除适用”的方法解决实践性问题。随着人工智能技术的持续发展,现行法律将很有可能被迫修改以适应人工智能时代的新需求。笔者希望能至少为当下的法律问题的顺利解决提供一些实践性思路,并以期在未来法律的修正和订立过程中贡献绵薄之力。笔者愿法律界、学术界和社会各界在应对新挑战的新时代中密切合作,共同推进人工智能技术与法律体系的融合发展。