郑飞夏晨斌:生成式人工智能的著作权困境与制度应对科技与法律202305著作权法知识产权

【作者】郑飞(法学博士,北京交通大学法学院副院长、副教授);夏晨斌(耀时跨境数据合规研究院研究员,硕士研究生)

目次一、新一代大规模语言模型的技术原理与特征二、新一代大规模语言模型面临的著作权困境三、大规模语言模型“两端”的著作权制度回应

新一代大规模语言模型的技术原理与特征

(一)新一代大规模语言模型的技术原理

曾有学者预言“AI苏醒,并不存在不可逾越的天花板”。从新一代大规模语言模型(LargeLanguageModel,LLM,以下简称大模型)雨后春笋般的产业态势来看,人类确实大踏步走在“逾越天花板”的路上。OpenAI开发的ChatGPT实现了单模态下自然语言处理的多任务高效集成。GPT-4和百度文心一言则突破了单模态限制,实现了大模型对文本、图像、语音、视频等理解生成的多功能集成。新一代大模型在自然语言理解和反馈上展现出革命性进步和极高的处理水准。“ChatGPT+”模式更被认为将在全社会各领域掀起一场智能化浪潮。

热问题还需冷思考。拨开技术迷雾,祛魅智能面纱,才能见新一代大模型真身,探生成式AI法理。ChatGPT和文心一言的出现对于自然语言处理技术(NaturalLanguageProcessing,NLP)发展具有里程碑意义。所谓自然语言处理,即机器理解和运用人类语言的过程。17世纪哲学家莱布尼茨在跨语言交流的“摧毁巴别塔”构想中提出了“普遍代数学”和“普遍字符”概念。随后阐述了基于数学、语言学、字符学、密码学的自然语言处理哲学方法。囿于时代限制,这一思想直到1950年基于人机对话的“图灵测试”理论提出后才走下哲学神坛,成为指导现实的技术理论。

随着计算机硬件和机器学习算法的迭代发展,基于人工智能技术的自然语言处理逐渐成为主流。但是卷积神经、循环神经的“千层饼”构造使得传统神经网络语言模型构造复杂且效率低下,而且语言模型与任务模型之间存在一一对应关系,无法做到一个模型处理多种任务。2017年谷歌的基于自注意力机制的Transformer模型极大改善了模型任务用途单一问题,并极大提升了输出语句的情感表达准确性。2018年,OpenAI公司在Transformer的基础上开发了生成式预训练Transformer(GenerativePre-TrainedTransformer,GPT)。随后OpenAI又在GPT的基础上迭代了GPT-2、GPT-3、GPT-3.5、ChatGPT和GPT-4。百度也在此技术思路下开发了文心(ERNIE3.0Titan)大模型。

(二)新一代大规模语言模型的“两端”特征

1.输入端:训练数据“海量”化

2.输出端:生成内容“拟人”化

相较于传统的大规模语言模型,ChatGPT和文心一言在语言生成上展现出高度智能化色彩,具有强“拟人”化特征。具体来说,一是展现出了一定的自我认知能力。例如,ChatGPT在遇到专业问题提问时会主动承认自身知识水平的有限性。在《时代周刊》与ChatGPT的访谈中,ChatGPT对记者关于语言模型的局限性的提问回答道:“是的,像我这样的大型语言模型有很多局限性”。二是展现出了一定的自我反思能力。例如,ChatGPT会主动承认错误,并对用户指出的错误和意见进行判断、采纳、吸收和优化。三是展现出了一定的质疑能力。例如,ChatGPT会对错误提问进行质疑。在访谈中,ChatGPT对记者关于意识的提问提出了质疑:“不,说我有知觉或意识是不准确的。”四是展现出了一定的思维推理能力。例如,ChatGPT允许任意任务模式的自然语言输入,并能结合上下文对语言任务进行回答,开展多轮语言对话。在访谈最后,ChatGPT对记者关于前述问答的真实性提问时回答道:“你不应该把我所说的都当成真实和准确的。在做任何重要决定或采取任何行动之前,运用自己的判断和常识核实多方信息,才是重要的。”

新一代大规模语言模型面临的著作权困境

(一)输入端困境:训练数据的合理使用难题

1.合理使用难以涵盖为训练挖掘使用作品数据的行为

首先,大模型不具备“类人智慧”,前文已经详细阐释了大模型的生成原理。其“拟人”化的生成内容完全是价值模型的控制结果。不重复的对话内容完全是随机输出的机制作用。大模型的“智慧”表象仅仅是一个被精巧设计过的工具,与“类人智慧”有着云泥之别。其次,新一代大模型的学习生成过程仍然依赖人类监督。其语言风格及文本输出结果的准确性完全依赖于人类的训练素材选择和数据标注。从素材选择到数据标注,每一步都是人为主动介入的结果,而非自主意识做出的。换言之,模型从第一步学习素材选择开始就不具有完全的强自主性。最后,新一代大模型在创作过程中的根本推理逻辑是数学推理,其创作过程是对高价值语句的判断与输出。尽管数学可能是艺术,但艺术绝对不是数学。人类对文学艺术创作的逻辑推导不是理性的数学判断,而是感性的美学判断。因此,新一代大模型在艺术创作领域完全不具备“类人推理”。

2.新一代大规模语言模型生成内容不具有一定的思想和情感表达

3.新一代大规模语言模型生成内容不具有独创性

我国《著作权法》中的独创性包含“独”和“创”两个维度。其中,“独”是“独创性”有无的性质门槛,而“创”则是“独创性”高低的程度门槛。我国著作权法既需要对“独创性”的性质门槛认定,也需要对程度门槛的判断。

回到新一代大模型来看。就“独”而言,其要求“独立完成”和“个性化表达”。当前新一代大模型生成难以满足上述两点。一旦离开数据标注员的参数标注和训练员的文本数据输入,大模型不可能生成任何其他类型的新作品。因此,新一代大模型自身不满足“独立完成”要件。此外,ChatGPT和文心一言的“个性化表达”也非AI本身的个性化体现,而是创作者对大模型训练的特定体现。就“创”而言,其生成成果可以很好地满足客观主义下的“最低限度创造”的形式要求。因此,新一代大模型在客观主义下不存在显著的创造性障碍。但是,当前我国对独创性之“创”还存在隐含的价值判断,这一点在学界和司法实践中十分显见。例如,有学者认为“作品”应有文艺和科学美感。又如,司法者在涉艺术品司法判决中对独创性施加了艺术审美要求。这一隐含的价值判断与著作权法对独创性的要求有关。价值判断的本质是对作品内涵一定思想深度的要求,新一代大模型的生成本质是参数标注与概率计算,由于其不具备人类思想因此不可能满足一定思想深度的潜在要求,进而难以符合价值判断要件。综上所述,新一代大模型生成内容不具有独创性。

大规模语言模型“两端”的著作权制度回应

(一)输入端知识产权制度回应

1.构建更加开放的合理使用制度

综上所述,可以在兼顾社会整体利益、科技创新能力、产业竞争能力和著作权主体合法权益的基础上,构建更加开放的合理使用制度。一是可以对合理使用本体条款即《著作权法》第二十四条第一款和第六款进行升级扩容,分别突破第一款下“个人”和第六款下“大专院校、科研院所”的主体限制;二是可以对合理使用的非营利性目的进行进一步解释。对其解释可分为两种路径。其一是在不突破非营利性目的的限制下,将非营利性目的限于直接目的之下,将虽用于企业经营,但主要为研发创新所需的数据与文本挖掘间接性行为排除在外。其二是直接突破非营利性的目的限制。三是可以用好合理使用兜底条款即《著作权法》第二十四条第十三款,通过制定生成式人工智能行政法规的形式为大模型研发所需的数据文本挖掘合理使用提供制度空间。

2.构建义务规则下的默示许可制度

(二)输出端知识产权制度回应

-向上滑动,查看完整目录-

《科技与法律(中英文)》2023年第5期目录

【理论探讨】

1.智能一体化:再犯危险性评估的模式选取与体系建构

喻少如、窦峥(1)

2.刑事证据判断中人工智能应用的法理审思与优化路径

余贵忠、杨再忠(11)

3.平台经济治理纠纷的能动司法对策研究

李岩、王志文(20)

4.异化与归正:社交机器人的信息表达与规制径路

龙柯宇(31)

【数据知产】

5.数字权利视域下职场电子监控的三元治理模式

饶志静、朱天阳(40)

6.数据产权框架构建中排他性设计的研究

汪赛飞(50)

7.我国跨境数据流动规则的理论逻辑与体系重塑

——基于围猎博弈模型的分析

陈丽娜(61)

8.公共领域视野下作品登记制度改革之构想

黄汇、刘伊菲(73)

9.生成式人工智能的著作权困境与制度应对

——以ChatGPT和文心一言为例

郑飞、夏晨斌(86)

10.知识产权国际争端解决机制的纵向论坛转移研究

梁金马、石巍(97)

【青年论坛】

郑金涛(106)

12.著作权法中表达公有领域的司法认定

袁帅(117)

13.个人生物识别信息商业化应用规制:路径对比与规则补正

于若兰(128)

【英文版】

余祥、聂建强(138)

《科技与法律(中英文)》立足科技创新与法律实务的交融发展,成为横跨科技、法律、知识产权领域从事学术交流、实务沟通、绩效展示和形象推介的重要媒体和信息平台,致力于实现“促进科技与法律互动、服务学术与产业创新”的办刊宗旨。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 算法创建的挖掘模型可以采用多种形式,这包括: https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.什么是数据挖掘数据挖掘有哪些应用数据挖掘是一种从大量数据中自动发现隐藏信息和潜在关系的技术。它运用了统计学、机器学习和数据库等相关领域的知识与技术,可以帮助人们对数据进行全面深入的分析,提高数据的利用价值。 1.数据挖掘的定义和原理 数据挖掘是通过自动或半自动的手段,在庞大的数据集合中发掘出那些关于某些特定问题的明显或者隐含的、以前未知https://www.eefocus.com/e/1348975.html
3.数据挖掘的体系结构是什么数据挖掘的六大过程说了这么多数据挖掘中的经典算法,但是如果你不了解概率论和数理统计,还是很难掌握算法的本质;如果你不懂线性代数,就很难理解矩阵和向量运作在数据挖掘中的价值;如果你没有最优化方法的概念,就对迭代收敛理解不深。所以说,想要更深刻地理解数据挖掘的方法,就非常有必要了解它后背的数学原理。 https://blog.51cto.com/u_16213595/7898197
4.数据挖掘指什么意思帆软数字化转型知识库其基本原理是利用统计学、机器学习和数据库技术,从大量数据中自动提取有用的信息和知识。数据挖掘的核心步骤包括数据预处理、数据变换、模式识别、知识表达和评估等。数据预处理是指对原始数据进行清洗、归纳和转换,以便更好地进行数据分析。数据变换是指将数据转换为适合挖掘的形式,例如将文本数据转换为数值数据。模式https://www.fanruan.com/blog/article/572886/
5.什么是数据挖掘?定义重要性与类型SAP数据挖掘是利用高级分析工具从海量数据中提取有用信息的过程。https://www.sap.cn/products/technology-platform/hana/what-is-data-mining.html
6.数据挖掘的定义和解释数据挖掘的原理是什么? 数据挖掘涉及检查和分析大量信息,旨在发现有意义的模式和趋势。该过程包括收集数据、制定目标和应用数据挖掘技术。所选策略可能因目标而异,但数据挖掘的经验过程是相同的。典型的数据挖掘过程可能如下所示: 定义目标:例如,是否要进一步了解客户行为?是否要削减成本或增加收入?是否要识别欺诈?在数据https://www.kaspersky.com.cn/resource-center/definitions/data-mining
7.数据挖掘学习之路一:数据挖掘认识图论与社交网络说了这么多数据挖掘中的经典算法,但是如果你不了解概率论和数理统计,还是很难掌握算法的本质;如果你不懂线性代数,就很难理解矩阵和向量运作在数据挖掘中的价值;如果你没有最优化方法的概念,就对迭代收敛理解不深。所以说,想要更深刻地理解数据挖掘的方法,就非常有必要了解它后背的数学原理。 https://blog.csdn.net/qq_30868737/article/details/104215525
8.什么是网络爬虫金融数据挖掘:在金融领域,Python爬虫技术被用于实时抓取股票市场数据,并通过多个商业案例实战来体验金融数据挖掘的魅力。例如,通过Selenium库爬取新浪财经的股票实时数据。 robots.txt协议的工作原理和使用方法 robots.txt 协议是一种用于指导搜索引擎爬虫如何抓取和访问网站内容的规范。其工作原理如下: https://www.cda.cn/view/204973.html
9.一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 马云在2012年网商大会上的演讲中说过:“假如我们数据分析师有了一个数据预报台,就像为企业装上了一个GPS和雷达,企业的出海将会更有把握。”。这里的数据预报台就是下文所述的商业智能。 什么是商业智能(Business Intelligence) https://cda.pinggu.org/view/621.html
10.数据挖掘原理(豆瓣)我要写书评 数据挖掘原理的书评 ···(全部 0 条) 这本书的其他版本· ···(全部2) The MIT Press (2001) 7.5分12人读过https://book.douban.com/subject/1103515/
11.数据挖掘的原理结果评估和解释:在完成模式识别后,需要对挖掘结果进行评估和解释。 总之,数据挖掘的原理是通过对大规模数据进行收集、预处理、特征提取、模式识别和结果评估解释等步骤,发现隐藏在数据背后的模式和关联,从而更好地理解数据并做出决策。https://www.jianshu.com/p/72885557bce7
12.数据挖掘需要具备哪些思维原理?近几年,数据挖掘受到了学术界和工业界的广泛关注。所谓数据挖掘,指的是从数据库的大量数据中,揭示出隐含的、先前未知的、有潜在价值的信息的非平凡过程。日前,公众号“人工智能产业链联盟”发文称,如果你想从事数据挖掘工作的话,就需要具备以下四个思维原理。 https://time.geekbang.org/column/article/220218
13.数据挖掘原理数据挖掘原理 数据挖掘是一种从大规模数据中提取有用信息的过程。其主要目的是发现隐藏在数据背后的模式和关联,以便更好地理解数据并做出决策。以下是数据挖掘的原理。 1. 数据收集 在进行数据挖掘之前,必须先收集相关的数据。这些数据可以来自各种来源,包括数据库、文件、网络等。收集到的数据应该具有高质量和可靠性https://wenku.baidu.com/view/c70958051db91a37f111f18583d049649b660ee5.html
14.《数据挖掘原理》课件20240207.pptx《数据挖掘原理》PPT课件CATALOGUE目录数据挖掘概述数据预处理常用数据挖掘算法数据挖掘应用场景数据挖掘的挑战与未来发展数据挖掘概述01总结词数据挖掘是从大量数据中提取有用信息的过程。详细描述数据挖掘是一种从大量数据中提取有用信息和知识的技术,这些数据可以是结构化的、半结构化的或非结构化的。通过数据挖掘,可以https://www.renrendoc.com/paper/310737466.html
15.数据挖掘技术方法(精选十篇)以社交网站为例,如果要进行相关信息的数据挖掘,实现高质量与高效率,就要通过对海量数据的处理与整合,使用数据仓库技术及数据挖掘技术是个不错的选择。为最大限度节约时间及减少运行成本,构建数据仓库数据挖掘体系是至关重要的。一般体系结构如下图所示(图2)。构建了数据仓库体系,可以高效对数据进行管理与汇总,对相关https://www.360wenmi.com/f/cnkeyg31vygx.html
16.基于数据挖掘技术研究评审专家名单泄露风险数据挖掘的基本原理和适用场景 数据挖掘是从大量的、不完全的、随机的数据中,提取隐含在其中的、事先无法预知的、但是潜在有用的信息和知识的过程。数据挖掘技术可以用来支持商务智能应用,如顾客分析、定向营销、工作流管理、欺诈检测以及自动化销售等。例如,银行可以通过数据挖掘技术对客户的信用评级进行分析https://www.ahggzy.org.cn/showdoc?docid=05a0af6a3f4d4d70a4ad128f256e36b3&id=557a28633b8d41c1bee5227e57518c30&subid=2957ab2c43e947c69c7f5158c159f601
17.什么是数据清洗因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。 二、数据清洗原理 利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,如图所示。 按数据清洗的实现方式与范围,可分为4种: 1、手工实现,通过人工检查,只要投入足够的人力物力财力,也能发现所有错误,但效率低http://www.chinaedg.com/e/wap/show.php?classid=85&id=260&style=0&bclassid=69&cid=85
18.《数据挖掘》简介风险评估中的应用;第11章主要介绍利用贝叶斯统计进行数据挖掘的思想、原理、方法及其在影像数据分类中的应用;第12章主要利用介绍了决策树与集成学习进行数据挖掘的思想、原理、方法及其在健康产业运行监测中的应用;第13章主要利用介绍人工神经网络学习进行数据挖掘的思想、原理、方法及其在上证综合指数收盘价预测分析中的https://lxy.tjcu.edu.cn/info/1334/2831.htm
19.数据挖掘:原理与应用中科院文献情报中心四层中文自科图书区在架上73.967/103.4-1 自动化所图书流通库在架上TP311.131/ 667 10浏览量 问图书管理员 馆际互借 点赞 收藏 访问借阅管理系统 分享 作者:朱小栋 ISBN:9787542938169 出版社:立信会计出版社 出版年:2013 数据挖掘原理、算法及应用 https://www.las.ac.cn/front/book/detail?id=f981ae4bea8ec7916300c4f700e294c8
20.《数据库原理及应用》(胡孔法主编)简介书评数据库系统 原理方法应用技术结合 数据库系统 原理方法应用技术结合 数据仓库 数据挖掘 大数据 作者:胡孔法主编出版社:机械工业出版社出版时间:2020年06月 手机专享价 ¥ 当当价降价通知 ¥38.20 定价 ¥45.00 配送至 北京市东城区 运费6元,满49元包邮 http://product.dangdang.com/28976983.html
21.利用数据挖掘的知识挖掘方法?Worktile社区1.2 数据挖掘的基本原理和流程 1.3 数据挖掘与机器学习的关系 二、数据挖掘的技术分类 2.1 监督学习 2.2 无监督学习 2.3 半监督学习 2.4 强化学习 三、数据挖掘的常用技术和算法 3.1 关联规则挖掘 3.2 分类与预测 3.3 聚类分析 3.4 离群点检测 3.5 时间序列分析 https://worktile.com/kb/ask/85519.html
22.R语言数据挖掘方法及应用(薛薇著)完整pdf扫描版[188MB]电子书下后续围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知,数据分组篇:发现数据中的自然群组,数据关联篇:发现数据的内在关联性,离群数据探索篇:发现数据中的离群点。每篇下各设若干章节,各章节从简单易懂且具代表性的案例问题入手,剖析理论方法原理,讲解R语言实现,并给出案例的R语言数据挖掘代码和结果https://www.jb51.net/books/630445.html