林华  人工智能数据训练的法律竞争

本文转载自“林华”公众号,作者林华。

一、如果数据为王

大型语言模型的爆发,宣示生成式人工智能为历史翻开断代的一页,文明和社会的底层逻辑正在悄然切换。OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,StabilityAI推出的StableDiffusion和Midjourney就代表生成式图像模型的高峰。

不论模型设计的技术水平有多高,现阶段技术条件下数据训练质量对AI性能都具有决定性影响。ChatGPT模式是典型的大力出奇迹,3.5版本以来通过千亿级别的数据暴力训练,终于涌现出通过图灵测试的智能;StableDiffusion和Midjourney代表的图像模型同样需要大量素材喂养。

(一)《著作权法》

第15条:汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。

第16条:使用改编、翻译、注释、整理、汇编已有作品而产生的作品进行出版、演出和制作录音录像制品,应当取得该作品的著作权人和原作品的著作权人许可,并支付报酬。

(二)《生成式人工智能服务管理暂行办法》

由网信办等部委联合发布的暂行办法第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”。

(一)行为分解的意义

1.解构是为了更好的整体分析

数据输入、训练过程和结果输出,是完整的人工智能数据训练中前后衔接的三个阶段。准确分拆每个阶段是正确认识和评价每个阶段的前提,而正确评价每个阶段才能全面判断作为行为整体的数据训练。

人工智能数据训练的技术过程的法律后果,实际分别由数据输入和结果输出端吸收,即只需要对数据输入和结果输出两个阶段做法律评价。但是了解数据训练过程的技术实现方式,是对训练结果输出进行法律评价和正确适用法律分析的前提。

举一个例子,两位学生解同一道题做出相同答案。判断其中是否存在抄袭,不能只看做题结果而要追溯做题过程是否存在作弊。

2.数据输入和结果输出相互独立

数据输入是模型训练的起点和过程,结果输出是对训练成果的使用。数据输入和结果输出不但在数据训练全过程中相互独立,甚至未必一一对应,可能在逻辑上脱链。比如为实现测试、校验、研究等目的,就可能只输入而不需要输出。

3.分别适用法律规则

中国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。

《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。

《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。

依次分析前述著作权法第24条中第1和6两款列举规定。关于第六款,人工智能数据训练性质和“科学研究”倒是接近,但该款“少量复制”的规定和大规模数据训练的需要相冲突。因此适用第六款论证AI训练的数据输入可以适用合理使用,困难相当大。

第24条第1款规定的合理使用场景是“为个人学习、研究或者欣赏,使用他人已经发表的作品”。有专家认为该款对“个人”主体的限定使AI训练难以适用,但即使从《著作权法》分析“个人”主体的限定也并不能排除AI训练的适用。

1.著作权法没有规定“个人”必须是自然人

一部法律总则对全部法条都有统摄作用。《著作权法》总则中第2条列举本法适用的法律主体包括:“中国公民、法人或者非法人组织”,其中并没有使用“个人”。中国公民是(中国籍)自然人概念的法律化,具有一致的指向。但著作权法总则没有把个人作为和组织并列的主体,即个人和公民(以及自然人)在著作权法上并不是必然等价的概念。

2.著作权法使用的“个人”有充分的解释空间

除前引第24条(一)款“为个人学习、研究或者欣赏”的规定外,《著作权法》使用“个人”表述的还有第49条和第52条两处。

其中第49条第2款是对禁止破坏技术措施的规定:“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施......”;第52条第1款是对禁止侵害署名权的规定:“有下列侵权行为的,应当根据情况,承担......等民事责任:......(三)没有参加创作,为谋取个人名利,在他人作品上署名的”。

根据上述第49条,个人和组织是并列的法律主体,单独从这一条看似乎支持个人和公民/自然人等同的理解。但是著作权法第52条又显然不支持个人和公民等同。

著作权法第12条对署名权主体的规定是:“在作品上署名的自然人、法人或者非法人组织”,所以署名权可以为所有主体平等行使。理论上侵害署名权和享有署名权的主体应该做一体解释,实践中以各类组织名义(包括院系、编写组、研究团队)署名现象普遍存在。那么不论主张组织不具有侵害署名权的能力,还是主张组织侵害署名权不受第52条限制,都是和现实和理论冲突。唯一可行的解释是第52条禁止侵害署名权规定中的个人,包括组织。

3.类似情况适用参照规则

在著作权法总则没有限定甚至没有使用“个人”,且使用“个人”的不同条款含义不一致情况下,不能得出著作权法中的个人和公民/自然人等同的结论。因此著作权法第24条使用的“个人”不仅具有弹性解释的可能,而且可以适用对类似规范的参照。

事实上这里的参照可以是双向的。不但是第24条的“个人”可以参照“组织”的规定,第52条的“组织”也可以参照对“个人”的规定。

4.实践需要扩大解释或参照适用

将学习、研究或者欣赏的合理使用范围扩大到自然人以外的主体,远不单是论理问题而是现实已经发生的切实需要。试举一例,利用中国知网的CNKI论文进行查重,适用现行法律所遇到的法律争议之一就是主张以研究为目的的合理使用的主体适格性[1]。

扩大解释著作权法第24条中的“个人”或者参照“组织”的范围适用,理论上没有障碍,实践中确有必须。

(三)合理使用立法模式对AI数据训练的影响

著作权合理使用立法有限定严格的列举模式,以及只规定判断原则的开放模式。显然开放模式的弹性和宽松度要大的多。中国著作权合理使用立法是以著作权法第24条的具体列举,加实施条例第21条的三步检验并行的模式。适用该种模式仍然以行为落入著作权法24条具体列举范围为条件,理论上不会比单纯列举模式的严格程度低。

由于列举模式的刚性,在人工智能发展初期阶段很难有提前立法覆盖AI数据训练全程,最多可以用来判断单个阶段的合理使用。唯有开放式合理使用可能直接适用从数据输入到结果输出的全过程。

韩国著作权法分别在第35条第2款规定了临时复制许可,在第3款规定了合理使用制度。该法第35条2条款规定:“使用者在计算机上使用作品时,使用者可以为稳定有效处理信息目的,在计算机上临时复制该作品。但是,本规定不适用于以侵权方式使用作品“[2]。该款显然认可计算机临时复制属于侵权例外,而根据该款但书规定的排除条件,完整的判断人工智能训练的数据输入是否合法需要结合其它规定,即第3款的合理使用。

日本著作权法和韩国著作权法类似,在2018年修订版著作权法第47条之4款第1项规定了包括计算机缓存等临时复制的合理使用[3],可以作为人工智能数据训练输入阶段的判断依据之一。同样,完整判断数据训练行为在日本是否可以适用合理使用,需要结合第30条4款以及第47条5款。

(1)使用目的和性质,包括是否为商业目的或盈利的教育目的;

(2)被使用作品的性质;

(3)被使用内容相对于被使用作品整体的数量和重要性;

(4)被使用作品因此受到潜在的市场影响;[4]

2.关于数据训练与合理使用的专家意见

萨格教授的证词观点鲜明、论证清晰而且做到一气呵成,以下完整引用主文中对合理使用的部分(专家证词附录部分还有展开论述,建议检索原文阅读):

萨格证词摘要:

生成式人工智能并不是为了复制原创而设计。[6]

(二)欧盟立法

1.欧盟立法结构

2.DSM指令与TDM规则

DSM指令中与人工智能数据训练对应的行为,称为文本与数据挖掘(TextDataMining,简称“TDM”)。

指令第4条规定的合理使用相比第3条而言为科学研究以外的数据挖掘敞开通道,但同时为权利人预设禁止他人获取的保留权。参见指令前序部分第18条,可了解指令第4条扩大合理使用范围的立法理由:

“(18)文本和数据挖掘技术除了在科学研究中的重要性之外,还被私有和公共主体为各种目的和分析不同生活领域而广泛使用,包括政府服务、复杂商业决策以及新应用或技术的开发。……在此类情况下为提供更多法律的确定性并鼓励私有经济体的创新,本指令应在相应情况下设置为文本和数据挖掘目的对作品或其他主题的复制和摘录的例外或限制(注:即合理使用)。

本例外或限制仅适用于受益人合法获取作品或其他主题的情况,包括在网上向公众提供,以及权利人未以适当方式保留复制及文本和数据挖掘权的情况。对于已通过互联网公开提供的内容,只有通过机器可读方式(包括元数据以及网站或服务的条款和条件)才构成有效保留。[8]

(三)英国立法

(四)日本立法

日本在2018年基于“考虑物联网、大数据、人工智能等技术革新所生成的「第四次产业革命」修订著作权法”[11]。该版修订著作权法第47条之5款的规定,已为人工智能数据训练设立了合理使用许可:“通过计算机处理创造新知识或信息之以下行为者,……以任何方式(参考利用比例、数量及对外提供的较低分辨率等)利用他人已公开作品。但有不当损害著作人利益之情形,不在此限。“

日本政府推动人工智能数据训练的积极态度已经超过英国和欧盟,后者的合理使用排除非法获取,而日本甚至将从非法网站获取予以划出从而缩小非法获取的范围。难怪顶尖人工智能专家YannLeCun在推特评价日本已经成为机器学习的天堂。

(五)韩国立法

结合韩国著作权法第35条第2款规定的临时复制许可,韩国对数据训练整体适用合理使用的概率很大。

(六)以色列立法

(一)中国态度与国际条约义务

如本文第二部分所述,单独看网信办等新近颁布的《生成式人工智能服务管理暂行办法》第4条和第7条,已经封闭了AI数据训练从输入到结果输出适用合理使用的可能。但是即使暂行办法排除合理使用,依旧存在两种重新适用的可能。

第一种可能是通过立法或者对《著作权法》进行解释,前文且已论证在法律执行中进行解释至少有能力解决利用人工智能数据训练进行科学研究中的合理使用问题;第二种可能是寻找合理使用制度以外支持利用受著作权保护作品进行数据训练的依据,最有可能完成这项任务的是著作权保护例外的规定。

中国参加的国际条约,即使在本国法中没有明确写明也对中国具有约束力。中国参加的《与贸易有关的知识产权协定》(WTO知识产权协定)第9条“与《伯尔尼公约》的关系”约定以下两款:

1.各成员应遵守《伯尔尼公约》(1971)第1条至第21条及其附录的规定。但是,对于该公约第6条之二授予或派生的权利,各成员在本协定项下不享有权利或义务。

此外我国《计算机软件保护条例》第6条也规定条例对软件著作权的保护不延及开发软件所用的思想、处理过程、操作方法或者数学概念等。

依本文观点及第六部分“技术”等论证,至少对生成式人工智能而言,不论其数据训练对象是文字还是图像内容,其生成结果都只是对训练数据中思想、观念、技法、风格(萨格教授习惯称为思想和事实/Facts,或非表达因素)而不是对作品表达的利用。换而言之,生成式人工智能利用的是训练素材中可以生成表达的部分,比如思想和风格。

(二)其他海外立法

1.排除对非表达部分的保护

日本著作权法第30条第4款规定著作权不保护对作品表达的思想或感情之外目的之使用,并特地提及用于数据分析(对大量作品或大量作品中语言、声音、图像或其他基本数据进行提取、比较、分类或其他统计分析)的情况适用第47条第5款(参见本文第四部分之(四)的解释)。

2.间接允许使用

欧盟议会于2023年6月发布关于人工智能立法立场[16]中,要求人工智能模型和生成内容的提供者,必须发布有关使用受著作权法保护的训练数据的信息(publishinformationontheuseoftrainingdataprotectedundercopyrightlaw)。欧盟立场只要求人工智能和生产内容提供者明示训练所使用受著作权保护数据的信息,并没有要求其获得许可更没有给著作权人拒绝进行许可的权利。结合对欧盟在DSM等法规中的立场,可以得出欧盟支持使用受著作权保护作品进行AI数据训练的行为设定合理使用。

对当下引发争议最大的生成式人工智能技术原理做基本复盘,对厘清人工智能输出结果的生成原理,进而判断AI数据训练过程是否存在侵权,具有重要意义。

法律学者研究人工智能技术的确有很多专业障碍,虽然也有一些阐释清晰的技术贴[17]和书籍(比如吴军的《智能时代》),但技术圈外无法从算法层面完全掌握。好在要做数据训练的合法性判断只需要理解生成式的基本原理和方法论。一并推荐阅读萨格教授今年7月为美国律师协会知识产权法分部讲座的PPT《生成人工智能抓取/挖掘的公开信息》[18],有助于从简单的阐释中理解生成式人工智能数据训练的基本状况。

并不推荐法学者都亲自研究人工智能技术这样庞大的技术体系。用最简单的逻辑表述,生成式人工智能就是通过对大量数据材料的学习,提炼各种问题解决方案或者不同类型作品的数据特征,并基于以上机器学习习得的知识根据指令生成需要的结果,不论是解决问题、输出图像或者文字。

语言大模型(LLM)原理比图形大模型原理解释起来更简单。ChatGPT的基本原理就是通过海量数据的预训练学习语言规律和无差别领域的背景知识。经过天文量级的数据训练,例如当下风行的ChatGPT4已训练过1.5万亿单词和1750亿参数,AI学会根据问题逐个预测出最接近需要的每个单词。

图像大模型技术之所以复杂,是因为在图像识别这样基础和初始的需求上,计算机就遇到了严重挑战。很多年来人工智能连猫的图像也难以准确识别。2020年一个苏格兰足球俱乐部引入配置AI追踪技术的智能直播系统,控制镜头紧跟场上足球的移动进行直播。遗憾的是AI把裁判的光头当成足球,裁判成了全场转播唯一的高光和赢家。

AI和人类理解图形特征的方式不一样。人类识别和比对图形一致性是通过像素,数字技术方案则是用散列函数(HashFunction)把任意大小(或长度)的文件压缩成128位的信息摘要(哈希值),再通过不同文件的哈希值匹配是否一致。AI通过训练提炼出AI才能理解的图形特征。AI并没有记住图形,记住的是数学式。

GAN对抗模型是一种非常流行的图像生成模型。使用GAN模型的AI生成一个编码器和一个解码器,把同一张图同时喂给编码器和解码器,由编码器对原图不断加数字噪音,解码器则不断降噪试图辨别是否原图。通过编码器和解码器反复轮回的体内博弈,AI自己学会提炼出适合于程序识别格式的文件特征。StabilityAI出品的全球最大图像生成模型StableDiffusion训练方法则是根据每张图片自有的分布规律,学习图形和文字标签之间的关系,在去噪过程当中实现图像生成。

很多观点认为人工智能是拼接已有作品,但这并不符合生成式人工智能的学习过程。拼接的前提是大量局部复制(少量情况下完整复制),但AI不是为复制而学习,是为了掌握训练数据在技术分析意义上的特征而学习,复制对生成式人工智能在技术上的意义是程序出错。就StableDiffusion模型是否会在生成过程中复制训练数据请教过一位不愿意具名的人工智能图像处理专家,这位专家认为模型学到的都是数学表达,并不会真的把一个图片的某个部分复制到结果里面。

生成式AI的技术机制不需要也不支持抄袭。

AI哪有坏心眼,AI就没心眼。

七、案例分析与借鉴

(一)中国案例分析

1.使用他人作品元素的商业实践

2.使用他人作品元素的侵权案例

(1)《此间的少年》案

金庸在2015年以小说《此间的少年》中使用原告《射雕英雄传》《天龙八部》《笑傲江湖》《神雕侠侣》等作品角色,侵害原告著作权为由,将涉案小说作者杨治(笔名江南)等诉至法院。广州知识产权法院于2023年4月以(2018)粤73民终3169号判决书,认定《此间的少年》和原告作品在故事情节表达、时空背景、故事线索与事件、具体故事场景和内在逻辑等皆不同,但涉案小说多数人物名称、主要人物性格、人物关系与原告作品小说有诸多相似之处,存在抄袭剽窃行为,侵害了涉案作品著作权。

(2)《锦绣未央》案

北京市朝阳区人民法院在(2017)京0105民初62752号等系列判决书中认定,周静在其创作的小说《锦绣未央》中抄袭温瑞安等12名作者的《温柔一刀》《身历六帝宠不衰》等16部小说的语句和情节,侵犯了署名权、复制权和发行权。

西安佳韵社和上海箫明公司之间这场为《我的团长我的团》著作权侵权纠纷开启连续三个审级的诉讼,是解释和适用著作权合理使用制度最经典的案例之一。

西安佳韵社在2020年将上海箫明公司公司诉至北京市互联网法院,称被告未经许可提供电视剧《我的团长我的团》的在线播放,侵犯了原告对涉案作品享有的独家信息网络传播权。被告上海箫明公司通过自己经营的“飞幕”APP提供“听音识剧”功能,将涉案作品以1分钟为单位剪辑后上传到服务器,APP后台通过语音识别用户播放声音,在和服务器中作品片段匹配后即向用户播放该不超过1分钟的片段。

上海箫明公司抗辩其提供的“听声识剧”服务是向不熟悉影视作品的用户介绍影视作品,在功能和目的上都不是提供在线播放业务。被告为用户提供的涉案作品片段不超过1分钟,占43集作品的比例微乎其微,无法表达出完整的故事情节也不会对涉案作品起到替代作用。

北京市互联网法院一审审理认为,虽然被告在识别并匹配后仅向用户提供每次1分钟的片段,但其行为已构成信息网络传播,侵害了原告权利。

北京市高级人民法院于2022年底在(2022)京民再62号再审判决书中又撤销二审判决,改认定上海箫明公司公司行为不构成合理使用,只是将向西安佳韵社公司赔偿的经济损失从一审的6万降至1万元。

4.观点总结

综合以上商业实践及案例,可以得出以下几个结论:

(1)碎片化使用他人作品元素,并不必然可以援引合理使用

(2)大量使用他人作品元素,尤其使用知名角色名称或经典台词、情节等细节,可能构成侵权;

(3)人工智能数据训练能否适用合理使用,关键看AI学习和利用的是他人作品风格、思想、观念、技法,还是直接使用作品元素

(二)美国案例分析1—安德森等诉StabilityAI等

美国法院在今年1月先后受理的两起完全不同的著作权人起诉Stab

安德森等诉StabilityAI等人工智能公司侵权的重要性远不止数字上“第一案”的形式意义,而是三位原告以艺术家代表身份为艺术家群体向人工智能企业发起诉讼。这起诉讼体现了艺术社群面对人工智能骤然挑战的焦虑,代表了众多绘画师的不安。本案结果必将对艺术家群体和人工智能产业同时产生重大影响。

原告证据看来没有弥补诉状过于依赖纯理论分析的缺陷。根据最新报道,法官WilliamOrrick在庭审前的听证会已经表示倾向于驳回本案原告的大部分诉请。法庭认为原告应该清楚的区分对不同原告的索赔,尤其应该就其生成式人工智能侵权的主张提供事实证据,否则即使被告的系统已经对50亿张压缩图像进行训练也不能证明这些训练素材包括原告作品。[21]

本案进程显然遇到障碍,但还不能说原告必然败诉。一方面原告有补充事实证据的机会,另一方面法庭提到原告之一莎拉·安德森提交了直接侵权证据,她的诉请可以继续得到审理。

(三)美国案例分析2—美国GettyImages诉StabilityAI

尽管如此,Getty诉状包含不少具体依据,对StableDiffusion模型的技术原理也做了不错的陈述。排除部分显然为了诉讼定制的夸大表述,Getty诉状体现了比较高的专业水平。

Getty案和莎拉·安德森等代表的艺术家群体与AI的诉讼在策略和证据上有不同看点。

1.商标权的主张和证据

Getty诉状中证明被告侵害商标权的图片质量都惨不忍睹,但对这些证据的抗辩攻防会影响整个诉讼的结果。如果被告确实甚至确实故意抄袭原告商标水印,就没有理由相信被告会不抄袭原告图像。

生成式人工智能不需要依靠复制来学习图形,这已经是公认的技术原理。从实际情况分析,AI训练需要天文数字的训练图片,StableDiffusion利用过Getty图片并不令人意外。但是AI如果在经过海量图片训练后仍然把Getty的水印误解为通用图形的必要背景,这就不符合常识。

为解决已经训练过的数据不能满足特定需求的问题,例如由于普遍训练使用欧美和韩国女性图片素材,要精准生成藏族女性图像就要增加专门的训练素材,因此需要开放用户在大模型基础上定向训练专门的图像。StableDiffusion除了提供通用素材训练的技术支持外,也允许用户自行搭建定向训练素材的Lora数据库。

大家应该有印象,一幅出色的StableDiffusion是什么水平。比如人像光影和毛发,AI可以优秀如斯。

虽然提示词(Prompt)水平直接影响StableDiffusion输出结果,但能差到Getty举证图片的地步,如果不是使用特定素材的Lora定向训练的结果,那就是需要在降低提示词水平上长期训练了。

原告诉状第52段和58段及其举例值得专门分析和回应,但篇幅和内容都已经超过本文范围,留待对生成式AI是抄袭还是原创的专题中讨论。

2.技术贴的论证-StableDiffusion有没有故意侵权

Getty作为原告不可避免在诉状中展开对StableDiffusion的技术分析,力图证明被告存在故意侵权。我个人认为Getty诉状中的技术分析相比莎拉·安德森案诉状,减少了对数学理论的依赖,转而使用比较通用的逻辑和步骤表述,有利于争取法庭理解。

1)诉状技术贴—生成式训练技术

Getty在诉状第36节阐述了被告StableDiffusion模型数据训练流程和原理:

StabilityAI创建并维护了名为StableDiffusion的模型。据了解,StabilityAI使用以下从输入到输出的步骤:

a.首先,StabilityAI复制了数十亿的文本和图片配对——如可从GettyImages网站获取的那些——并将其加载到计算机内存中以训练模型。

b.其次,StabilityAI对图像进行编码,创建占用较少内存的图像较小版本。另外,StabilityAI也对配对的文本进行编码。StabilityAI保留并存储编码后的图像和文本的副本,作为训

练模型的一个重要环节。

c.第三,StabilityAI向编码的图像添加视觉“噪声”,即进一步修改了图像,使得难以辨认出图像所代表的视觉内容。由于图像的视觉质量已经被有意降低,以便于“训练”模型去除“噪声”。通过有意向现有的与文本关联的图像添加视觉噪声,StabilityAI教导模型生成与特定文本描述(例如,“在日落时分海滩上玩耍的狗”)相符的输出图像。

d.第四,模型解码修改的图像,并自学通过比较解码后图像和已经复制和存储的原始图像和文本描述来去除噪声。通过学习解码噪声,模型学会提供——在某些情况下,——和没有噪声的原始图像实质一致的图像。

首先,同样重复一个技术定论,像素不是AI对图形的理解方式,复制行为是被生成式人工智能技术视为需要改正的bug。

其次,d段所称的特殊情况,如果不是程序出错,就是被训练素材独一无二的情况。例如达芬奇的蒙娜丽莎只有一幅,如果让AI生成一幅还原版达芬奇的蒙娜丽莎,AI只能有拒绝或者依葫芦画瓢两个选项。如果是选“帮我画一枝晶莹剔透的牡丹花”(本提示著作权属于百度)或者名动一时的“梅西敬酒图”,AI解决任何有创作空间的需求根本不存在抄袭的可能。

2)诉状技术贴—想象中的节外生枝

就临时复制而言,因为不需要在输出时复制,生成式AI本身就不需要保留训练素材,而是保留训练结果中每种图片的数学特征。请教一位同样不愿意披露姓名的人工智能专家,他认为StableDiffusion除了数据输入和训练中为学习而有临时复制外,尤其在输出阶段对复制没有任何需求。沟通达成的一致意见是诉状第43节意见是为了让客户满意,而法庭要看的是证据。由于StableDiffusion在2022年底就已开源,可以方便的通过公开源码核实模型的技术实现方式,也为解决这项争议提供更开放的机会。

八、人工智能数据训练的合理使用是一次全球法律的竞争

(一)大人,时代变了

知识产权法教授DanielGervais认为:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用”[23]。值得回味的是,如果Daniel教授举例中的AI不是智能程序而是人名,结论会正好相反。因为人类学习他人风格而做的表达当然不侵权。

(二)围绕人工智能的法律竞争

要阻滞AI步伐,主动降低技术发展速度实际已不可能。技术像阳光,即使把自家院子全部遮蔽也还会照在别人土地上。

注释

【2】Article35-2(TemporaryReproductioninCourseofUsingWorks,etc.)Printedarticles--Whereapersonusesworks,etc.onacomputer,heorshemaytemporarilyreproducesuchworks,etc.inthatcomputertotheextentdeemednecessaryforthepurposeofsmoothandefficientinformationprocessing:Provided,thatthisshallnotapplywheretheuseofsuchworks,etc.infringesoncopyright

【4】(1)thepurposeandcharacteroftheuse,includingwhethersuchuseisofacommercialnatureorisfornonprofiteducationalpurposes;(2)thenatureofthecopyrightedwork;(3)theamountandsubstantialityoftheportionusedinrelationtothecopyrightedworkasawhole;and(4)theeffectoftheuseuponthepotentialmarketfororvalueofthecopyrightedwork.Thefactthataworkisunpublishedshallnotitselfbarafindingoffairuseifsuchfindingismadeuponconsiderationofalltheabovefactors."

【6】TraininggenerativeAIoncopyrightedworksisusuallyfairusebecauseitfallsintothecategoryofnon-expressive.

Courtsaddressingtechnologies,suchasreverseengineering,searchengines,andplagiarismdetectionsoftware,haveheldthatthese“non-expressiveuses”arefairuse.Thesecasesreflectcopyright’sfundamentaldistinctionbetweenprotectableoriginalexpression,andunprotectablefacts,ideas,abstractions,andfunctionalelements.11

WhethertraininganLLMisanon-expressiveusedependsontheoutputsofthemodel.IfanLLMistrainedproperlyandoperatedwithappropriatesafeguards,itsoutputswillnotresembleitsinputsinawaythatwouldtriggercopyrightliability.TrainingsuchanLLMoncopyrightedworkswouldthusbejustifiedunderthefairusedoctrine.

【8】(18)Inadditiontotheirsignificanceinthecontextofscientificresearch,textanddataminingtechniquesarewidelyusedbothbyprivateandpublicentitiestoanalyselargeamountsofdataindifferentareasoflifeandforvariouspurposes,includingforgovernmentservices,complexbusinessdecisionsandthedevelopmentofnewapplicationsortechnologies.……Inordertoprovideformorelegalcertaintyinsuchcasesandtoencourageinnovationalsointheprivatesector,thisDirectiveshouldprovide,undercertainconditions,foranexceptionorlimitationforreproductionsandextractionsofworksorothersubjectmatter,forthepurposesoftextanddatamining,andallowthecopiesmadetoberetainedforaslongasisnecessaryforthosetextanddataminingpurposes.

Thisexceptionorlimitationshouldonlyapplywheretheworkorothersubjectmatterisaccessedlawfullybythebeneficiary,includingwhenithasbeenmadeavailabletothepubliconline,andinsofarastherightholdershavenotreservedinanappropriatemannertherightstomakereproductionsandextractionsfortextanddatamining.Inthecaseofcontentthathasbeenmadepubliclyavailableonline,itshouldonlybeconsideredappropriatetoreservethoserightsbytheuseofmachine-readablemeans,includingmetadataandtermsandconditionsofawebsiteoraservice.

Copiesfortextanddataanalysisfornon-commercialresearch

(1)Themakingofacopyofaworkbyapersonwhohaslawfulaccesstotheworkdoesnotinfringecopyrightintheworkprovidedthat—

(a)thecopyismadeinorderthatapersonwhohaslawfulaccesstotheworkmaycarryoutacomputationalanalysisofanythingrecordedintheworkforthesolepurposeofresearchforanon-commercialpurpose,and

(b)thecopyisaccompaniedbyasufficientacknowledgement(unlessthiswouldbeimpossibleforreasonsofpracticalityorotherwise).

【10】,Conclusion

58.TheGovernmenthasdecidedtointroduceanewcopyrightanddatabaserightexceptionwhichallowsTDMforanypurpose.TheGovernmentwillidentifysuitablelegislationtomaketherequiredchangesinduecourse.

59.IntroducinganexceptionwhichappliestocommercialTDMwillbringbenefitstoawiderangeofstakeholdersintheUK.Theseincluderesearchers,AIdevelopers,smallbusinesses,culturalheritageinstitutions,journalists,andengagedcitizens.Targetedproductsandserviceswillbenefitbusinessesandcustomers.Researchoutcomescouldalsobenefitthewiderpublic.Thiscouldbe,forexample,bysupportingresearchandinnovationinpublichealth.SomeinthecreativeindustriesalsouseTDMandAItounderstandtheirmarketorcreatenewworks–theywillalsoseebenefits.Thebenefitswillbereducingthetimeneededtoobtainpermissionfrommultiplerightsholdersandnolicensefeetopay.ThiswillspeeduptheTDMprocessanddevelopmentofAI.

【11】《日本2018年著作权法修正权利限制规定概要》高嘉鸿108.5智慧财产权月刊VOL.245

【19】深圳市南山区法院(2019)粤0305民初14010号

【21】

THE END
1.LawWitapp下载让科技服务法律 Law Wit介绍 LAW WIT 是由上海律舟信息科技有限公司自主研发的移动、数字化、智能应用软件。该软件通过对传统律师行业需求的深入分析和对未来律师行业数字化需求的准确把握,打造了律师智慧办公、数字化运营、新一代智慧OA等多种功能。该软件旨在“让科技服务法律”,通过大数据的积累和分析,完成对律师业务https://liqucn.com/article/18861.wml
2.您指尖上的法律服务!“海丝法务通”全新升级!法律服务新浪财经“云应用”服务界面创新优化 多类法律服务产品全新上线 对“云应用”界面重新优化 设置我要咨询、我要办事 企业专区、智能工具 四大功能模块 提供法律咨询、法律援助、调解 仲裁、公证、诉讼 法律智能化工具等 基础法律服务 升级企业专区 整合厦门律师创新基地资源 http://finance.sina.com.cn/jjxw/2024-12-09/doc-incywcvr5811173.shtml
3.法律实务操作讲座模板.pptx操作讲座从理论到实务的操作技巧日期:20XX.XX汇报人:XXX目录法律职业道德讲述法律职业的基本道德规范01法律文书技巧深入探讨法律文书的撰写技巧02法庭辩护的技巧和策略系统剖析法庭辩护的重要策略03法律实务能力学生法律技能培养04实践活动关注鼓励学生积极关注法律实践的新动态0501.法律职业道德讲述法律职业的基本道德规范0203律https://www.renrendoc.com/paper/368291770.html
4.中华人民共和国司法部公共法律服务 律师工作 法律职业资格考试普法与依法治理2024-12-13 安顺创新模式赋能普法宣传 2024-12-13 辽宁加强宪法宣传教育营造良好法治环境 2024-12-11 青海部署岁末年初重点领域专项普法工作 2024-12-10 激活“红色密码”赋能法治建设 2024-12-09 阿克苏万余名“法律明白人”播撒“法治种子” 2024-12https://www.moj.gov.cn/pub/sfbgwapp/fzgzapp/ggfzfwapp/pfyyfzlapp/
5.您身边的法律小助手,千万别错过律师事务所国家政务服务平台 法律服务 可以帮您 查收这份维权指南! 以律师事务所查询为例,通过上方卡片进入服务列表,在“法律援助”中选择“律师事务所查询”,输入机构名称或者选择地区,机构成立年限、负责人信息、律师人数一眼掌握。 (温馨提示:地区为必填项,姓名可以选择输入~) 仲裁、调解、法律咨询随需随查 国家政务服务平台https://www.163.com/dy/article/JIQHF2M90553TEUB.html
6.北大法律信息网法律信息服务平台北大法宝--北大法律信息网,法律信息网https://www.chinalawinfo.com/
7.金融招聘中金公司湘财基金海投全球中航证券探究资本等远洋服务招聘法务经理 【地点】北京 岗位职责: 1、起草、审核、修改各类法律文件,参与业务谈判; 2、解答项目经营和业务发展中的各类咨询,为公司运营管理提供法律意见; 3、处理各类诉讼、纠纷; 4、投资法律支持; 5、外聘律所管理; 6、风控制度体系建设; https://www.shangyexinzhi.com/article/5142497.html
8.智律网一Ai&Law一全球智能法律服务平台最新法律咨询更多 赔偿问题 牙医拔牙损伤神经 和别人合伙开公司,都是我出的钱,当时两个人商定一人一半,他的出资算借我的,后面亏 遭受他人恶意辱骂 聘请北京市关于影视投资领域专项法律顾问服务的意向 亲戚拒绝让我家使用原有土地 修改信息:http://web.ailawai.com/jd/detail/345.html http://web.ailawai.com/
9.在线法律咨询平台的设计与实现(附源码LWPPT)在理论层面,项目将探索前沿的Web开发技术与法律服务的融合,丰富法律信息化领域的研究成果。在实践层面,项目成果可以为广大民众提供便捷、专业、低成本的法律咨询和援助,提升法律服务的可及性,促进社会公平正义。同时,该平台也可为律师等法律从业者提供展示和接单的渠道,优化法律服务市场,创造更大的社会价值。https://blog.csdn.net/2401_86437916/article/details/142733223
10.数字瀛和数字瀛和,国内法律服务行业数字化发展引航者,以互联网精神为导向,为行业提供数字化律所工具、管理、产品、业务赋能,推动律所数字化改造升级,提升法律服务效率,与北京大学、中国政法大学、中国人民大学、北京律师法学研究会、中国律师博物馆等机构共同助力行业良性发展http://www.winteam500.com/
11.与投诉监测报告》——网经社网络经济服务平台电子商务研究中心据“电子商务消费纠纷调解平台”2018全年受理的零售电商用户投诉案例大数据显示,热点被投诉问题主要聚焦在:退款问题、网络欺诈、商品质量、发货问题、霸王条款、售后服务、虚假宣传、网络售假、退换货难、物流问题、货不对板、退店保证金难退还等这12个方面。 其中以一品威客、绿森数码、返利网、微店、拼趣多、每日优鲜、http://www.100ec.cn/zt/2018yhts/
12.埇桥区律师埇桥区律师周宗书在线免费法律咨询埇桥区法律咨询 埇桥区法律问答 通话录音放在u盘里,埇桥区人民法院会接收作为证据吗 平台特邀律师已解答 > 共3个回答 宿州一级工伤赔偿多少 平台特邀律师已解答 > 共3个回答 安置房和商品房的区别宿州 综合律师团队已解答 > 共1个回答 宿州拆迁可以怎样算赔偿 平台特邀律师已解答 > 共3个回答 请问https://china.findlaw.cn/yongqiao/
13.巨量引擎法律声明巨量引擎隐私条款巨量引擎隐私政策北京巨量引擎网络技术有限公司及其关联方(简称“我们”)作为巨量引擎的运营者,深知个人信息对您的重要性,我们将按照法律法规的规定,保护您的个人信息及隐私安全。本隐私政策详细描述了我们如何收集、使用和处理与您有关的个人信息。特别提示:希望您在使用巨量引擎及相关服务前仔细阅读并理解本隐私政策,做出适当的选择。使https://www.oceanengine.com/extra/legal
14.直播虚拟人快速扩张,法律专家分析其中被忽视的合规问题本文来自微信公众号“Internet Law Review”,作者:黄斌 直播虚拟人产业规模达千亿的同时,合规问题日益凸显 【编者按】艾媒咨询最新相关研究报告显示,2021年中国的“虚拟人”带动的产业市场规模和核心市场规模分别达到1074.9亿元和62.2亿元,预计2025年将达到6402.7亿元和480.6亿元,呈现强劲增长态势。 https://www.d-arts.cn/article/article_info/key/MTIwMjM1NTE2MjiDz4Flr3ascw.html
15.旗渡法律翻译中心Multilingual Lawyers Website 专业官宣翻译+自主控制台 Multilingual Lawyers Website 多语律所网站 常年法律顾问 Enterprise Legal Counsel 二线的价格,一线的服务 Enterprise Legal Counsel 常年法律顾问 翻译专家辅助人 Translation Expert Witness 搞定事实是胜诉的关键 https://www.qidufanyi.com/
16.NorthAmericaImmigrationLawGroup线上咨询:请按此开始免费评估 English|简体中文|繁體中文|?|日本語 北美联合律师事务所(North America Immigration Law Group; Chen Immigration Law Associates)是一家从事美国移民的律师事务所,致力于代表来自美国50个州的公司、研究机构和个人,针对I-140移民申请提供法律服务。 我们专精于职业移民申请,并https://cn.wegreened.com/
17.东方法眼网──专业法律咨询与法律知识网站www.dffyw.com特别声明东方法眼官网为www.dffyw.com,五字拼音,谨防山寨版假冒。东方法律宝典2016版官方下载,司法改革**消息,法律网站,法律网,法律法规,法律咨询,法律知识,东方法眼,劳动法,法治时评,法律论坛,法律人才,法律博客,law,court,case,chinalegal,laweye,dffyhttp://www.fwol.cn/gotoweb.php?id=29737
18.市贸促会:厦门市贸促会成立应对疫情涉外商事法律支援平台法律支援平台的服务内容包括因疫情导致的法律问题、贸易救济案件应对、国际化经营合规风险评估、海外知识产权维权、涉外仲裁调解服务、出口管制、反垄断调查、国家安全审查、经济制裁、海外利益保护、不可抗力证明申办等。 疫情期间,企业可通过电话,邮件等方式获得法律咨询和援助。咨询时间:每工作日上午 9:00-11:30、下http://news.m.xmsme.cn/webview.aspx?id=97831
19.招聘上海杭州法务招聘:阿里巴巴饿了么喜马拉雅FM..期待收https://www.liepin.com/company/8834770/pn2/ 四、通赞猎头 纽交所上市知名电商平台 招聘岗位: 法务 职位描述: 1、与公司业务部门紧密合作起草、审阅交易文件(保密协议、许可协议、社交平台管理协议、公关管理协议或其他运营协议)以及相关谈判; 2、为公司内部客户提供日常公司法律顾问服务,包括企业设立、日常合规、https://www.douban.com/note/717921264/
20.广东诉讼服务平台?东莞诉讼服务平台4、国家市场监督管理总局企业登记网上注册申报服务系统 网址: http:// wsdj.samr.gov.cn/saicmc djweb/state/transferLogin? 5、信用视界 网址: https://www. x315.com 6、小微企业名录 网址: http:// xwqy.gsxt.gov.cn 7、北京市企业信用信息网 https://www.51zlaw.com/flzs/96648.html
21.政治法律理论课(精选十篇)在确认一个法律制度中的某个具体授予或者剥夺权利的决定时,对于未曾言明但是具有实质约束力的承认规则持一种内在观点,一旦这些运用法律的官员从内心接受了法律的内在陈述(internal statement),他们对待承认规则的态度就是承认法律的合法性权威,是把经过承认规则认可的法律表达为“这……就是法”(It is the law that)https://www.360wenmi.com/f/cnkeyltnrvbr.html