×

打开微信,扫一扫二维码
订阅我们的微信公众号

首页 锦天城概况 专业领域 行业领域 专业人员 全球网络 新闻资讯 出版刊物 加入我们 联系我们 订阅下载 CN EN JP
首页 > 出版刊物 > 专业文章 > 人工智能大模型AI PUBS RAIL LICENSES许可证合规问题探析

人工智能大模型AI PUBS RAIL LICENSES许可证合规问题探析

作者:丁华 陈岱源 2024-04-07
[摘要]大模型领域的开源闭源之争恰如曾经的计算机软件的开源与闭源之争,事实证明,开源与闭源都有着各自的优势。在特定的发展时期,闭源发展能够提高产业的专业性和初代产品落地的速度,但是开源往往后来居上,产业整体的繁荣依赖于开源。

一、 人工智能大模型领域的开源闭源之争


在软件领域存在开源软件和闭源软件的区分,在人工智能大模型领域同样存在开源与闭源的分野。现有的开源大模型大部分都基于谷歌在2017年开源的Transformer架构,六年来,基于Transformer架构的大模型已经遍地开花,并且呈现出开源和闭源两种发展方向。以最为知名的自然语言模型GPT为例,OpenAI最初研发的GPT-1、GPT-2是开源的,但后续的GPT-3、GPT-3.5(ChatGPT)、GPT-4选择了闭源。闭源发展的商业决策甚至引发了近期马斯克针对OpenAI及其两名高管—首席执行官 Sam Altman 和总裁 Greg Brockman提起的诉讼,他们两人与马斯克合作,于 2015 年创立了OpenAI。诉讼称,这两人违反了与马斯克最初达成的「创始协议」,该协议承诺公司将公开开发 AGI(通用人工智能),「造福人类」[1]。


知名模型开源社区Hugging Face的创始人Clem Delangue曾说:“OpenAI不足为惧,开源会慢慢赶上来”。2023年7月,Meta公司宣布开源Llama 2大模型并将其接入模型开源社区Hugging Face,其包含70 亿、130 亿和 700 亿三种参数变体,具有媲美GPT-3.5的功能。通常的观点认为,GPT-3.5的性能水平是大模型商用的分水岭,而Meta开源Llama 2的举动,无疑将在大模型产业领域掀起新的风暴。不少观点认为,Llama 2这样的非常强大的大模型选择走开源路线已经预示着在大模型领域,也将出现开源对闭源的“入侵”,未来极有可能在Llama 2的基础上衍生出一个大模型的开源生态环境[2],不少正在研发中的闭源模型实力甚至不如开源模型,将会面临直接被放弃的命运。


在国内,大模型企业开始学习Meta的发展思路,例如百川智能将其百亿级别参数的大模型 Baichuan-13B开源,并许可免费商用。清华大学的科技成果转化公司智谱AI也开源了其开发的ChatGLM。而相反华为的盘古大模型与百度的文心一言则选择了闭源。


大模型领域的开源闭源之争恰如曾经的计算机软件的开源与闭源之争,事实证明,开源与闭源都有着各自的优势。在特定的发展时期,闭源发展能够提高产业的专业性和初代产品落地的速度,但是开源往往后来居上,产业整体的繁荣依赖于开源。


二、 制定负责任人工智能大模型RAIL系列许可证的背景


开源人工智能大模型许可证理念来自于开源软件的许可证。几十年的发展和繁荣,使得计算机软件的开源理念和哲学已经深入人心。已经非常成熟开源软件产业为开源人工智能的想法提供了现成的经验。


以人工智能大语言模型为例,广义人工智能大语言模型本质上由两个核心组件构成:一个巨大的参数文件和一个运行这些参数的代码文件。首先,参数文件,可以视为这些大语言模型的“DNA”,它包含了数以亿计甚至数以万亿计的权重,这些权重是通过大量数据训练而来的,它们共同构成了一个复杂的神经网络。其次,代码文件,则是可以视为这些大语言模型的“大脑”。这部分代码负责指导如何使用参数文件中的权重来处理输入的文本,执行推理,并产生输出。这些代码可以用各种编程语言编写,它们定义了模型的架构、如何在给定的输入下选择最合适的词汇以及如何结合上下文生成连贯的文本等[3]。狭义人工智能大语言模型仅指前述参数文件,而前述代码文件则作为同狭义人工智能大语言模型配套的软件。


如上所述,考虑到广义人工智能模型就包括用各种编程语言编写的代码文件(即软件),因此在最初的做法是直接将现成的开源软件许可证例如Apache、MIT、BSD等直接应用于人工智能模型。这种做法已经非常普遍,在HuggingFace模型开放平台上,存在着大量直接采用开源软件许可证的人工智能大模型[5]。


但是,人工智能大模型与计算机软件终究有所不同,开放一个人工智能大模型给全世界和开放一个软件的源代码所产生的“蝴蝶效应”是完全不同的。传统的开源软件许可证通常不会对计算机软件的使用用途或目的进行限制。而因人工智能大模型日益接近甚至超越人类的能力,人工智能大模型可能被滥用,甚至违背人类伦理造成难以承受的负面后果,因此如果人工智能大模型仅沿用传统开源软件的许可证,则难以实现人类期望的人工智能发展目标。


RAIL Initiative在2019年成立,旨在倡导在许可证和合同中采用行为使用限制,以降低共享人工智能技术造成的伤害风险,并发布了第一批负责任的人工智能许可证(“RAIL”),用于许可源代码和最终用户软件,以演示如何在许可证和合同中包含对行为的使用限制[3]。此后适用于人工智能大模型领域的RAIL系列许可证陆续发布,具体参见下图[6]


image.png


截止2023年4月,HuggingFace平台上已经有超过8000个存储库在使用RAIL许可证。有研究者统计,RAIL许可证已经成为HuggingFace平台上使用率仅次于宽松型开源软件许可证的第二大许可证类别[7]。


考虑到RAIL许可证分支种类较多,下文笔者主要就RAIL Initiative提供的RAIL样本许可证中发布于在2023年的AI PUBS RAIL LICENSES进行介绍。


三、人工智能大模型AI PUBS RAIL LICENSES系列许可证简介


AI PUBS RAIL LICENSES包括两类四种许可证,第一类是开放的负责任的人工智能许可证AIPubs Open RAIL,具体有适用于模型的AIPubs Open RAIL-M许可证和适用于程序源代码的AIPubs OpenRAIL-S许可证;第二类是仅限于研究用途的负责任的人工智能许可证AIPubs Research-Use RAIL,具体有适用于模型的AIPubs Research-Use RAIL-M许可证和适用于程序源代码的AIPubs Research-Use RAIL-S许可证。


 (一)AIPubs Open RAIL-M许可证简介及评述


截至目前RAIL Initiative发布的AIPubs Open RAIL-M许可证版本为0.1,发布时间为2023 年3月2日。许可证内容包括:第一节序言,第二节知识产权,第三节使用、分发和再分发的条件,第四节其他规定和附件A,其中主文有12个条文,附件A有3个条文。


第一节序言部分,首先,序言说明AIPubs Open RAIL-M许可证通常适用于任何机器学习模型。其次,序言声明AIPubs Open RAIL-M许可证以“开放(Open)”命名表示下游和其他用户可以自由访问该被许可的模型。再次,序言声明AIPubs Open RAIL-M许可证以“负责任的人工智能许可证(RAIL)”命名表示存在禁止使用该模型的使用限制,这些限制旨在避免对模型和模型衍生版本的潜在的滥用。最后,序言部分对模型许可证相关概念进行了定义,重要的定义和说明有:


“模型”是指任何随附的基于机器学习的组合(包括检查点),由学习的权重、参数(包括优化器状态)组成,与补充材料中体现的模型架构相对应,该组合通过使用补充材料利用全部或部分数据进行了训练或调整。


“补充材料”是指用于定义、运行、加载、基准检测或评估模型的适用源代码和脚本,和用于准备训练或评估数据(如有)的适用源代码和脚本。这包括任何随附的文档、使用说明、示例等(如果有)。


“数据”是指从数据集提取的信息和/或内容的集合和模型一起使用,包括为了训练、预训练或以其他方式评估模型。


“模型的衍生作品”是指对模型的所有修改,基于模型的作品,或通过将模型的权重、参数、激活或模型输出的模式转移到另一个模型来创建或初始化的任何其他模型,以使其他模型的执行与该模型相似,包括但不限于需要使用中间数据表示的蒸馏方法或基于该模型为训练其他模型生成的合成数据的方法。


“贡献”系指权利人或被授权以权利人名义提交的个人或法律实体有意提交给许可人以纳入模型的任何作品,包括模型的原始版本以及对该模型或其衍生作品的任何修改或添加。为了定义的目的,“提交”是指发送给许可方或其代表的任何形式的电子、口头或书面通信,包括但不限于由许可方或其代表管理的电子邮件列表、源代码控制系统和问题跟踪系统上的以讨论和改进模型为目的通信,但不包括被权利所有者以明显标记或以其他方式书面指定为“不是一个贡献”的通信。


“输出”是指运行模型的结果,体现在由此产生的信息内容中。


由上定义可知AIPubs Open RAIL-M许可证中模型和模型的衍生作品是指前文介绍的广义模型概念中的参数文件,补充材料则是前文介绍的广义模型概念中的代码文件(及计算机软件)。知AIPubs Open RAIL-M许可证明确声明,补充材料和数据均另行许可,不适用AIPubs Open RAIL-M许可证。


第二节知识产权部分,明确授予许可和专利许可给任何使用领域使用模型及其衍生作品的个人或法律实体版权。每个贡献者就再制造、准备、公开展示、公开执行、可分许可和分发模型和模型的衍生作品,授予永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的版权许可。每个贡献者就制造、委托制造、使用、许诺销售、销售、进口和以其他方式转让模型和/或模型的衍生作品,授予永久的、全球性的、非排他性的、不收费的、免版税的、不可撤销的(许可证另有规定除外)的专利许可。如果模型使用者针对任何实体提起专利诉讼(包括诉讼中的交叉请求或反请求),声称模型或模型的衍生作品和/或合并进模型或模型的衍生作品中的贡献构成直接或间接专利侵权,则根据AIPubs Open RAIL-M许可证授予的模型和/或模型衍生作品的任何专利许可应自此类诉讼被主张或提起之日起终止。


第三节内容为使用、分发和再分发的条件。AIPubs Open RAIL-M许可证第三节第4条规定的再制造和分发模型或模型的衍生作品的副本以及为第三方提供远程访问(例如软件即服务)需要遵循的条件包括:(a)将第 5 条使用限制包含在管辖模型或模型衍生作品的法律协议(例如许可证)中,并通知分发给的后续用户,模型或模型的衍生作品受第 5 条使用限制的约束;(b)必须向模型或模型衍生作品的任何第三方接收者提供一份AIPubs Open RAIL-M许可证副本; (c) 使任何修改的文件带有显著的通知,声明修改了该文件; (d)保留所有版权、专利、商标和归属声明。第三节第5条规定要求使用模型或模型衍生作品的所有用户遵守AIPubs Open RAIL-M许可证附件A中规定的使用限制。第三节第6条对使用模型的输出进行了规定,许可方对使用模型生成的输出不主张任何权利。使用模型者对生成的输出及其后续使用负有责任。对输出的任何使用均不会违反AIPubs Open RAIL-M许可证中陈述的任何条款。


第四节内容为其他规定。第7条规定 在法律允许的最大范围内,许可方保留违反AIPubs Open RAIL-M许可证时限制(远程或其他方式)使用模型权利。第8条规定许可方不授予使用许可方商标、商号、标识的权利。第9条是模型按“原样”提供的许可方无担保声明。第10条是在任何法律理论下,无论是侵权(包括疏忽)、合同还是其他,任何贡献者均不对模型使用者的损害承担责任的责任限制声明。


AIPubs Open RAIL-M许可证附件A规定了对模型或其衍生作品三个方面的使用限制。1、法律方面使用限制,不得以违反任何适用的国家、联邦、州、地方或国际法律或法规的方式使用模型或其衍生作品。2、伤害和歧视方面的使用限制:(a)不得以剥削、伤害或试图剥削或伤害未成年人的用途使用模型或其衍生作品;(b)不得生成或传播虚假信息以伤害他人;(c)不得生成或传播可用于伤害个人的个人身份识别信息;(d)不得诽谤、贬损或以其他方式骚扰他人;(e)不得基于已知或预测的在线或离线社交行为个人或人格特征,意图或具有伤害个人或群体效果使用模型或其衍生作品;(f)不得利用特定群体基于其年龄、社会、身体或精神特征的任何脆弱性,对属于该群体的个人的行为进行实质性扭曲,通过导致或可能导致该该个人或另一个人伤害的方式使用模型或其衍生作品;(g)基于受法律保护的特征或类别,意图或具有歧视个人或群体的方式使用模型或其衍生作品。3、透明度方面的使用限制:(a)不得在任何媒介上生成或传播机器生成的信息或内容,而不明确和清晰地否认其为机器生成的;(b) 不得为了欺骗的目的假冒或企图假冒人类; (c)不得用于全自动决策,该决策对于对个人合法权利产生不利影响或以其他方式产生或修改具有约束力、可执行义务的情况。


从AIPubs Open RAIL-M许可证内容简介看,该许可证制定时主要参考了开源Apache许可证版本 2.0的内容,二者类似的条款很多,二者主要的不同点在于:1、AIPubs Open RAIL-M许可证将使用模型为第三方提供远程访问(例如软件即服务)亦纳入许可证约束范围,而根据Apache许可证版本 2.0在使用开源软件为第三方提供远程访问(例如软件即服务)并不触发约束条件;2、AIPubs Open RAIL-M许可证第5条和附件A规定了使用限制,而Apache许可证版本 2.0并未此类使用限制。3、AIPubs Open RAIL-M许可证第6条专门对使用模型的输出进行了规定,而Apache许可证版本 2.0并无专门对使用开源软件的输出结果的明确规定。


(二)AIPubs Open RAIL-S许可证简介及评述


截至目前RAIL Initiative发布的AIPubs Open RAIL-S许可证版本为0.1,发布时间为2023 年3月2日。许可证内容包括第一节序言,第二节知识产权,第三节使用、分发和再分发的条件,第四节其他规定和附件A,其中主文有11个条文,附件A有3个条文。


AIPubs Open RAIL-S许可证和AIPubs Open RAIL-M许可证的条款内容基本相同,只是根据适用范围不同(前者为源代码,后者为模型),对相关条款进行了修改。对照AIPubs Open RAIL-M许可证的条款,AIPubs Open RAIL-S许可证的修改如下:


在第一节序言部分:适用范围上,明确AIPubs Open RAIL-S许可证通常适用于负责任的有使用限制的任何源代码。删除了AIPubs Open RAIL-M许可证中“补充材料”的定义,代之以“源代码”的定义。“源代码”是指使用人类可读的编程语言写的任何文本集合,包括用于定义、运行、加载、基准测试或评估模型或其任何组件的代码和脚本,和/或用于准备训练或评估的数据的代码和脚本。为清楚起见,本许可中使用的术语“源代码”包括该源代码的任何和所有衍生作品。删除了AIPubs Open RAIL-M许可证中“模型的衍生作品”的定义,代之以“衍生作品”的定义。“衍生作品”是指包含对源代码的增加和/或修改的所有作品。


第二节知识产权部分:对照AIPubs Open RAIL-M许可证的条款,AIPubs Open RAIL-S许可证相应将模型及模型衍生作品相关版权和专利的授权修改为源代码及源代码衍生作品相关版权和专利的授权。


第三节内容为使用、分发和再分发的条件部分,AIPubs Open RAIL-S许可证中使用分发和再分发的条件和AIPubs Open RAIL-M许可证基本相同,仅是根据许可证使用范围将“模型及模型衍生作品”相应修改为源代码及其衍生作品。另删除了对“使用模型的输出”的规定条款。


第四节内容为其他规定部分,AIPubs Open RAIL-S许可证和AIPubs Open RAIL-M许可证基本相同,仅是根据许可证使用范围将“模型及模型衍生作品”相应修改为源代码及其衍生作品。


AIPubs Open RAIL-M许可证附件A部分,AIPubs Open RAIL-S许可证和AIPubs Open RAIL-M许可证规定的使用限制完全相同。


(三)AIPubs Research-Use RAIL-M许可证简介及评述


截至目前RAIL Initiative发布的AIPubs Research-Use RAIL-M许可证版本为0.1,发布时间为2023 年3月2日。许可证内容也为第一节序言,第二节知识产权,第三节使用、分发和再分发的条件,第四节其他规定和附件A,其中主文有12个条文,附件A有3个条文。


AIPubs Research-Use RAIL-M许可证和AIPubs Open RAIL-M许可证的条款内容基本相同,只是将用途从开放Open(即允许下游和其他用户可以自由访问该被许可的模型)修改为仅适用于研究用途Research-Use(即仅用于学术或研究用途)。


(四)AIPubs Research-Use RAIL-S许可证简介及评述


截至目前RAIL Initiative发布的AIPubs Research-Use RAIL-S许可证版本为0.1,发布时间为2023 年3月2日。许可证内容也为第一节序言,第二节知识产权,第三节使用、分发和再分发的条件,第四节其他规定和附件A,其中主文有11个条文,附件A有3个条文。


AIPubs Research-Use RAIL-S许可证和AIPubs Open RAIL-S许可证的条款内容基本相同,只是将用途从开放Open(即允许下游和其他用户可以自由访问该被许可的模型)修改为仅适用于研究用途Research-Use(即仅用于学术或研究用途)。


四、人工智能大模型AI PUBS RAIL LICENSES系列许可证合规要点


如前文所述人工智能大模型AI PUBS RAIL LICENSES系列许可证的制定参考了开源Apache许可证版本 2.0的内容,二者存在类似条款,因此参照Apache许可证合规实务,提出如下人工智能大模型AI PUBS RAIL LICENSES系列许可证合规要点。


(一)明确人工智能大模型适用的AI PUBS RAIL LICENSES许可证具体版本


人工智能大模型许可证合规项目工作的第一步是判断人工智能大模型适用许可证种类和版本。具体为分清人工智能大模型的参数文件(即模型)所适用的许可证和人工智能大模型的代码文件(即源代码)所适用的许可证,进而根据相应的许可证内容确定人工智能大模型许可证合规工作的具体依据。


(二)评估人工智能大模型的应用风险


人工智能大模型AI PUBS RAIL LICENSES系列许可证都带有明确的免责声明和责任限制条款,此类条款对于保护将人工智能大模型开源的贡献者至关重要,但也同时这意味着虽然人工智能大模型的后续使用者可以根据许可证协议使用开源的人工智能大模型的参数文件和代码文件,但是依然存在着侵犯他方版权或者专利的风险。因此建议企业在使用使用开源的人工智能大模型的参数文件和代码文件时,尽可能选用人工智能大模型开源社区知名公司发布的,或业内广泛使用的开源大模型的参数文件和代码文件。此类开源代码由于具有知名企业背书或经过长期市场检验,侵权风险较小。而冷门、小众的开源大模型的参数文件和代码文件相对较大,需要慎评估后决定是否使用。


(三)对适用AI PUBS RAIL LICENSES系列许可证人工智能大模型后续应用和开发的开源/闭源选择


对于AIPubs Open RAIL-M和 AIPubs OpenRAIL-S两个“公开Open”性质的许可证类似于Apache 许可证版本 2.0属于宽松型开源协议,其并不要求后续使用者对基于开源人工智能大模型的衍生作品继续进行开源,因此基于适用AIPubs Open RAIL许可证的人工智能大模型制作而成的衍生作品,该衍生作品的开发者有权决定是否继续开放其修改后的大模型衍生作品。


开源与否涉及到企业对于平衡商业利益和公共利益的考虑,对自身的研发成果进行开源尽管看起来是企业让渡了部分商业利益,但是这一促进公共利益的技术分享行为,可以使全球的开发者共同参与该开源项目,更快地发现和修复人工智能大模型项目缺陷,提升产品性能,从而提高企业在业界的声誉,使企业得以宣传自身的开源软件项目,提高相关开源人工智能大模型项目的知名度和影响力。


对于AIPubs Research-Use RAIL-M和AIPubs Research-Use RAIL-S两个研究用途许可证,许可证内容中删除了下游和其他用户可以自由访问该被许可的模型/源代码的条款,考虑到其只能用于研究和学术用途,原则上应仅在研究范围内允许访问和使用。


(四)根据AI PUBS RAIL LICENSES系列许可证的具体版本,严格履行许可证项下规定的义务


根据人工智能大模型的具体使用情形,例如:为第三方远程访问服务(例如软件即服务),通过任何媒体复制和分发模型/源代码,按照AI PUBS RAIL LICENSES系列许可证规定履行相关许可证义务。许可证义务主要包括两方面:


第一方面类似开源软件许可证Apache2.0的义务,向模型或模型衍生作品的任何第三方接收者提供一份许可证的副本、使任何修改的文件带有显著的通知,声明修改了该文件、保留所有版权、专利、商标和归属声明。


第二方面是AI PUBS RAIL LICENSES系列许可证特有的用途限制的义务,主要按照AI PUBS RAIL LICENSES系列许可证附件A严格对使用人工智能大模型的用途进行限制。必须将AI PUBS RAIL LICENSES系列许可证第 5 条及附件A限制作为可执行的条款包含在管辖模型/源代码的使用和/或分发的任何类型的法律协议中,还应通知分发给的后续用户,模型或模型的衍生作品受第 5 条的约束。对于AIPubs Research-Use RAIL-M和AIPubs Research-Use RAIL-S两个研究用途许可证,还要求源代码的任何第三方接收者必须遵守仅被允许的学术和研究用途。


注释

[1] 参见《马斯克起诉OpenAI:他们做出了AGI还授权给微软,这是对创始协议赤裸裸的背叛》https://www.thepaper.cn/newsDetail_forward_26532034

[2] 参见《开源VS闭源,大模型永不会结束的战争》,https://new.qq.com/rain/a/20230906A01UE700

[3] 参见《OpenAI联合创始人通俗解读大语言模型》https://mp.weixin.qq.com/s/VUxmkXlJxiYCu9YB1A_WLw

[4] 参见https://huggingface.co/models?license=license:apache-2.0&sort=downloads

[5] 参见https://www.licenses.ai/blog/2022/8/18/naming-convention-of-responsible-ai-licenses

[6] 参见https://www.licenses.ai/faq-2

[7] 参见https://www.licenses.ai/license-adoption