大模型的未来，从人工智能三个里程碑说起神经网络自然语言处理|自然语言处理的发展历程_在线图书馆

在人工智能2.0时代，大模型分工愈来愈明确，日益增多的大模型，特别是开源大模型会实现不同的组合。支援大模型的数据不仅要求高品质，而且必须开源，任何与开源大模型的竞争必然注定失败。

可以预见的是，大模型规模的扩大存在着极限：一方面是物理性限制，一方面是大模型存在收益递减的拐点。所以，大模型设计或架构需考虑如何引入控制论，以适应人类回馈。

“大模型将乐高（Lego）化，构成大模型集群，不仅推动人类社会、物理空间和信息空间日益紧密融合，而且正在生成一个大模型主导的世界”。

作者|朱嘉明

人工智能大模型

——当代历史的标志性事件及其意义

标题封面

此项研究在这样的猜想基础上进行，即学习以及智能的任何其他特性的每一方面在原则上都能被精确描述，以致可使一台机器来模拟它。我们会尝试寻求如何让机器使用语言，形成抽象和概念，解决现在留待人类解决的问题，并提升自己。

——1956年达特茅斯会议人工智能（Al）定义[1]

2020至2022年，在新冠疫情肆虐全球的阴霾日子里，人工智能（Al）创新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起：2020年4月发布神经网络Jukebox[2]；5月发布语言模型GPT-3[3]；6月开放人工智能应用程式介面（ApplicationProgrammingInterface，API）；2021年1月发布连接文本和图像的神经网络CLIP[4]；同月发布从文本创建图像的神经网络DALL·E[5]，2022年11月正式推出了对话互动式的聊天机器人程式ChatGPT[6]。相比于GPT-3，ChatGPT引入了基于人类回馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）技术以及奖励机制[7]。

GPT-3的发布是人类科技史上的里程碑事件，在短短几个月席卷全球，速度超过人类最狂野的想象。GPT-3证明了一个具有高水平复杂结构和大量参数的人工智能大模型（foundationmodel，又称“基础模型”）可以实现深度学习（deeplearning）。

尽管如此，并不妨碍人们形成了关于大模型的基本共识：大模型是大语言模型（LargeLanguageModel，LLM）也是多模态模型（multimodalmodel）。GPT是大模型的一种形态，G代表生成性的（generative），p代表经过预训练（pre-trained），T代表变换器（transformer）[8]。它引发了人工智能生成内容（ArtificialIntelligenceGeneratedContent，AIGC）技术的：质变。

大模型是人工智能赖以生存和发展的基础。现在，与其说人类开始进入人工智能时代，不如说人类进入的是大模型时代。我们不仅目睹，也身在其中体验了生成式大模型如何开始生成一个全新时代。

本文通过七个部分，分别说明大模型的定义、人工智能的历史、大模型的基本特征、Transformer结构、GPU和能源、知识革命、“人的工具化”及大模型在其中的作用，有助于进一步解读大模型对于人类科技发展的重要意涵

何谓大模型

人工智能的模型，与通常的模型一样，是以数学和统计学作为演算法基础的，可以用来描述一个系统或者一个数据集。在机器学习（machinelearning）中，模型是核心概念。

模型通常是一个函数或者一组函数，以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的本质就是对这个/组函数映射的描述和抽象，通过对模型进行训练和优化，能够得到更加准确和有效的函数映射。

模型的目的是为了从数据中找出一些规律和模式，达到预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量。一个模型的参数数量愈多，通常意味着该模型可以处理更复杂、更丰富的信息，具备更高的准确性和表现力。

大模型一般用于解决复杂的自然语言处理（NaturalLanguageProcessing，NLP）、电脑视觉和语音辨识等任务。这些任务需要处理大量的输入数据，并从中提取复杂的特征和模式。通过使用大模型，深度学习演算法就能更好地处理这些任务，提高模型的准确性和性能。

大模型的“大”，是指模型参数至少达到1亿以上。但是这个标准一直在升级，目前很可能已经有了万亿参数以上的模型。GPT-3大约的参数规模是1，750亿。

除了大模型之外，还有所谓的“超大模型”。超大模型是比大模型更大、更复杂的人工神经网络（ArtificialNeuralNetwork，ANN）模型，通常拥有数万亿到数千万亿参数。超大模型一般被用于解决更为复杂的任务，如自然语言处理中的问答和机器翻译、电脑视觉中的目标检测和图像生成等。

这些任务需要处理极其复杂的输入数据和高维度的特征，超大模型可以在这些数据中提取出更深层次的特征和模式，提高模型的准确性和性能。所以，超大模型的训练和调整需要极其巨大的计算资源和大量数据、更加复杂的演算法和技术、大规模的投入和协作。

大模型和超大模型的主要区别在于模型参数数量的多寡、计算资源的需求和性能表现。伴随大模型参数规模的膨胀，大模型和超大模型的界限正在消失。现在包括GPT-4在内的代表性大模型，其实就是原本的超大模型。或者说，原本的超大模型，就是现在的大模型。

如前所述，大模型可以定义为大语言模型，即具有大规模参数和复杂网络结构的语言模型。与传统语言模型（如生成性模型、分析性模型、辨识性模型）不同[9]，大语言模型通过在大规模语料库上进行训练来学习语言的统计性规律，在训练时通常通过大量的文本数据进行自监督学习[10]，从而能够自动学习到语法、句法、语义等多层次的语言规律。

如果从人工智能的生成角度定义大模型，与传统的机器学习演算法不同，生成式大模型可以根据文本提示生成代码，还可以解释代码，甚至在某些情况下调试代码。

在这样的过程中，不仅实现文本、图像、音讯、视频的生成，构建多模态，而且还在更为广泛的领域生成新的设计、新的知识和思想，甚至广义的艺术和科学的再创造。

近几年，比较有影响的大模型主要来自Google、Meta和OpenAI。除了OpenA1的GPT之外，2018至2023年Google先后发布对话程式语言模型LaMDA、BERT和PaLM-E[11]。2023年，Facebook的母公司Meta推出大语模型LLaMA，以及在MetaAI博客上免费公开大语言模型OPT-175B[12]。

在中国，大模型主要代表是百度的“文心一言”和华为的“盘古”。这些模型的共同特征是：需要在大规模数据集上进行训练，基于大量的计算资源进行优化和调整。

因为大模型的出现和发展所显示的涌现性、扩展性和复合性，长期以来人们讨论的所谓“弱人工智能”、“强人工智能”和“超人工智能”的界限不复存在，这样划分的意义也自然消失[13]。

大模型是人工智能历史的突变和涌现

如果从1956年美国达特茅斯学院（DartmouthCollege）的人工智能会议算起，还有三年，人工智能历史就踏入七十年。该会议引申出人工智能三个基本派别：

一、符号学派（Symbolism），又称为逻辑主义、心理学派或电脑学派。该学派主张通过电脑符号操作来类比人的认知过程和大脑抽象逻辑思维，实现人工智能。符号学派主要集中在人类推理、规划、知识表示等高级智能领域。

二、联结学派（Connectionism），又称为仿生学派或生理学派。该学派强调对人类大脑的直接类比，认为神经网络和神经网络间的连接机制与学习演算法能够产生人工智能。学习和训练是需要有内容的，数据就是机器学习、训练的内容。联结学派的技术性突破包括感知机（下详）、人工神经网络、深度学习。

第一个里程碑：机器学习。机器学习理论的提出，可以追溯到图灵（AlanTuring）写于1950年的一篇论文《电脑机器与智慧》（“ComputingMachineryandIntelligence”）和图灵测试（Turingtest）[15]。1952年，在国际商业机器公司（IBM）工作的塞缪尔（ArthurL.Samuel）开发了一个西洋棋的程式。该程式能够通过棋子的位置学习一个隐式模型，为下一步棋提供比较好的走法。塞缪尔用这个程式驳倒了机器无法超越书面代码、并像人类一样学习的论断。他创造并定义了“机器学习”[16]。

机器学习是一个让电脑不用显示程式设计就能获得能力的研究领域。1980年，美国卡内基梅隆大学（CarnegieMellonUniversity）召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。此后，机器学习开始得到大量应用。

1986年，三十多位人工智能专家共同撰写的《机器学习：一项人工智能方案》（MachineLearning:AnArtificialIntelligenceApproach）文集第二卷出版[17]，显示出机器学习突飞猛进的发展趋势[18]。

二十世纪80年代中叶是机器学习的最新阶段，机器学习已成为新的学科，综合应用了心理学、生物学、神经生理学、数学、自动化和电脑科学等，形成理论基础。

1995年，瓦普尼克（VladimirN.Vapnik）和科茨（CorinnaCortes）提出的支持向量机（SupportVectorMachine，SVM，又称“支持向量网络”），实现机器学习领域最重要的突破，具有非常强的理论论证和实证结果。

机器学习有别于人类学习，二者的应用范围和知识结构有所不同：机器学习是基于对数据和规则的处理和推理，主要应用于数据分析、模式识别、自然语言处理等领域；而人类学习是一种有目的、有意识、逐步积累的过程。总之，机器学习是一种基于演算法和模型的自动化过程，并分为监督学习和自监督学习两种。

第二个里程碑：深度学习。深度学习是机器学习的一个分支。所谓“深度”是指神经网络中隐藏层（位于输入和输出之间的层）的数量。传统的神经网络只包含两至三个隐藏层，而深度神经网络可以有多达150个隐藏层，提供了大规模的学习能力。随着大数据和深度学习爆发并得以高速发展，最终成就了深度学习理论和实践。

2006年，辛顿（GeoffreyE.Hinton）正式提出“深度置信网络”（DeepBeliefNets/DeepBeliefNetwork，DBN）概念[19]，那一年成为了“深度学习元年”。在辛顿深度学习理论的背后，是坚信如果不了解大脑，就永远无法理解人类的认识。人脑必须用自然语言进行沟通，而只有1.5公斤重的大脑，大约有860亿个神经元（通常称为“灰质”）与数万亿个突触相连。人们可以把神经元看作是接收数据的中央处理器（CentralProcessingUnit，CPU）。

所谓“深度学习”可以伴随着突触的增强或减弱而发生，即在一个拥有大量神经元的大型神经网络中，计算节点和它们之间的连接，仅通过改变连接的强度，从数据中学习。辛顿认为，实现人工智能的进步需要通过生物学途径，或者通过神经网络途径替代模拟硬件途径，形成基于100万亿个神经元之间的连接变化的深度学习。

深度学习主要涉及三类方法：

深度学习是建立在人工神经网络理论和机器学习理论上的科学，它使用建立在复杂的网络结构上的多处理层，结合非线性转换方法，对复杂的数据模型进行抽象，得以识别图像、声音和文本。

2012年，辛顿和克里泽夫斯基（AlexKrizhevsky）设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别和分类，成为新一轮人工智能发展的起点。这类系统可以处理大量数据，发现人类通常无法发现的关系和模式。2016年人工智能机器人AlphaGo战胜韩国职业围棋棋手李世石，这是深度学习的经典范例。

第三个里程碑：人工智能生成内容大模型。2018年10月，Google发布BERT模型是代表性事件。该模型是一种双向的基于Transformer的自监督语言模型，通过大规模预训练无标注数据来学习通用的语言表示，从而能够在多种下游任务，如专名识别、词性标记和问题回答中进行微调。利用大型文本语料库BookCorpus和英文维基百科里纯文字的部分，无须标注数据，用设计的两个自监督任务来进行训练，训练完成的模型通过微调在十一个下游任务上实现最佳性能

因为BERT模型，掀起了预训练模型的研究热潮，从2018年开始大模型迅速流行，预训练语言模型（Pre-trainedLanguageModel，PLM）及其“预训练一微调”方法已成为自然语言处理任务的主流范式。大模型利用大规模无标注数据通过自监督学习进行预训练，再利用下游任务的有标注数据进行自监督学习以微调模型参数，实现下游任务的适配[20]。

如前所述，大模型的训练需要大量的计算资源和数据，OpenAI使用了数万台CPU和图形处理器（GraphicsProcessingUnit，GPU），并利用了多种技术，如自监督学习和增量训练等，对模型进行了优化和调整。2018至2023年，OpenAI实现大模型从GPT-1到GPT-4的五次迭代，同时开放了应用程式介面，使得开发者可以利用大模型进行自然语言处理的应用开发。

总之，大模型是基于包括数学、统计学、电脑科学、物理学、工程学、神经学、语言学、哲学、人工智能学融合基础上的一次突变，并导致了一种“涌现”（emergence）。大模型是一种革命。在模型尚未达到某个临界点之前，根本无法解决问题，性能也不会比随机好。但是，当大模型突破某个临界点之后，性能会发生愈来愈明显的改善，形成爆发性的涌现能力。

如论者所言：“许多新的能力在中小模型上线性放大规模都得不到线性的增长，模型规模必须要指数级增长超过某个临界点，新技能才会突飞猛进。”[21]

更为重要的是，大模型赋予人工智能以思维能力——一种与人类近似，又很不相同的思维能力。前述AlphaGo战胜李世石的世纪级围棋大赛，证明了人工智能思维的优势。

大模型的基本特征

大模型的基本特征可以总结为：以人工神经网络作为基础；为神经网络提供更好的预训练方法并促进规模化，能显著降低人工智能工程化门槛；具有理解自然语言的能力和模式；已经形成“思维链”；需要向量数据库的支援；具有不断成长的泛化功能，并且被植入了控制论的基于人类回馈的强化学习机制。

大模型以人工神经网络作为基础。

1943年，心理学家麦卡洛克（WarrenS.McCulloch）和数理逻辑学家皮茨（WalterH.Pitts，Jr.）建立了第一个神经网络模型，即M-P模型（又称“麦卡洛克-皮茨模型”或“MCP模型”）。该模型是对生物神经元结构的一种模仿，将神经元的树突、细胞体等接收信号定义为输入值x，突触发出的信号定义为输出值y。M-P模型奠定了支援逻辑运算的神经网络基础。

1958年，电脑专家罗森布拉特（FrankRosenblatt）基于M-P模型发明了包括输入层、输出层和隐藏层的感知机（perceptron）。神经网络的隐藏层最能代表输入数据类型特征（图1）。从本质上讲，这是第一台使用模拟人类思维过程的神经网络的新型电脑。

以OpenAI为代表的团队，为了让具有多层表示的神经网络学会复杂事物，创造了一个初始化网络的方法，即预训练。实际上，生成式大模型为神经网络提供了更好的预训练方法。

现在的大模型都是以人工神经网络作为基础的演算法数学模型，其基本原理依然是罗森布拉特的感知机。这种人工智能网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

图1神经网络的层级关系：由输入到输出

此外，还可以根据应用场景和需求，调用其他外部数据资源，包括知识库、情感词典、关键词提取、实体识别等。在预训练的过程中，大模型不是依赖于人为编写的语法规则或句法规则，而是通过学习到的语言模式和统计性规律，以生成更加符合特定需求和目标的文本输出。

预训练促进了规模化。所谓的“规模化”是指用于训练模型的大量计算，最终转化为规模愈来愈大的模型，具有愈来愈多的参数。在预训练过程中，大模型形成理解上下文的学习能力。或者说，伴随上下文学习的出现，人们可以直接使用预训练模型。大模型通过大量语料库训练，根据输入文本和上下文生成合适的文本输出，学习词汇、句法结构、语法规则等多层次的语言知识；通过对大量样本进行学习，更多的计算资源的投入（包括正确和错误的文本样本），捕捉到语法和句法的统计性规律，形成一个词或字元的概率的预测能力，进而根据不同样本的预测错误程度调整参数，处理复杂的语境，最终逐渐优化生成的文本。

例如，ChatGPT会根据之前与使用者交互的上下文和当前的生成状态，选择最有可能的下一个词或短语。

“预训练一微调”方法能显著降低人工智能工程化门槛。预训练模型在海量数据的学习训练后具有良好的泛化性（下详），使得细分场景的应用厂商能够基于大模型，通过零样本、小样本学习来获得显著的效果。

大模型具有理解自然语言的能力和模式。自然语言如汉语、英语及其文字，具有复杂性和多样性，且伴随文化演变而进化；通过表达含义，实现人类沟通和交流，推动人类思维发展。

对自然语言的理解，首先要理解文本的特征。在大模型研究的早期阶段，主要集中在自然语言处理领域，形成从简单的文本问答、文本创作到符号式语言的推理能力。之后大模型发生程式设计语言的变化，有助于更多人直接参与大模型用于问答的自然语言交互和程式设计模式，经过形式极简的文本输入，利用自然语言表达的丰富性，形成自然语言与模型的互动。

大模型已经形成“思维链”（Chain-of-Thought，CoT）。思维链是重要的微调技术手段，其本质是一个多步推理的过程。通过让大语言模型将一个问题拆解为多个步骤，一步一步分析，逐步得出正确答案。

我们还可以这样理解：思维链相当于大模型中的数据，人工智能以思维链为数据，然后再进行微调和回馈，从而形成人工智能能力。在电脑语言中，有所谓“第四范式”（FourthNormalForm，4NF）概念，有助于理解思维链的功能，也有助于大模型更加结构化和规范化，减少数据信息冗余和碎片化等弊病，提高大模型的效率。

大模型需要向量数据库的支援。向量是大模型的数据存储的基本单位。虽然大模型呈现端到端、文本输入输出的形式，但是实际接收和学习的数据并不是传统文本，因为文本本身数据维度太高、学习过于低效，所以需要向量化的文本。

“所谓向量化的文本，就是模型对自然语言的压缩和总结。”向量是人工智能理解世界的通用数据形式，大模型依赖向量数据库，其即时性对分散式运算的要求很高，随着数据的变化即时更新，以保障向量的高效存储和搜索[23]。

大模型具有不断成长的泛化（generalization）功能。大模型泛化是指大模型可以应用（泛化）到其他场景，泛化能力是模型的核心。大语言模型通过大量的数据训练，掌握语言中的潜在模式和规律，在面对新的、未见过的语言表达时具有一定的泛化能力。在新的场景下，针对新的输入信息，大模型就能做出判断和预测。

而基于语法规则、句法规则的传统语言模型通常需要人为编写和维护规则，对于未见过的语言表达可能表现较差。针对泛化误差，大模型通常采用迁移学习、微调等手段，在数学上权衡偏差和方差。

大语言模型广泛应用于自然语言处理领域的多个任务，如语言生成、文本分类、情感分析、机器翻译等。说到底，大模型的泛化就是指其通用性，最终需要突破泛化过程的局限性。但是，实现通用大模型，还有很长的路。

大模型植入了控制论的基于人类回馈的强化学习机制。回馈是控制论中的基本概念，是指一个系统把信息输送出去，又把其作用结果返回，并对信息的再输出产生影响，起到控制和调节作用的过程。大模型构建人类回馈数据集，训练一个激励模型，模仿人类偏好对结果打分，通过从外部获得激励来校正学习方向，从而获得一种自适应（self-adaptive）的学习能力。

大模型和Transformer

如果说神经网络是大模型的“大脑”，那么Transformer就是大模型的“心脏”。2017年6月，Google团队的瓦斯瓦尼（AshishVaswani）等人发表论文《注意力足矣》（“AttentionIsAllYouNeed”），系统提出了Transformer的原理、构建和大模型演算法。此文的开创性思想，颠覆了以往将序列建模和循环神经网络画等号的思路，开启了预训练模型的时代[24]。

Transformer是一种基于“注意力机制”（attentionmechanism）的深度神经网络，可以高效并行处理序列数据，与人的大脑非常近似。Transformer的基本特征如下：

（1）由编码组件（encoder）和解码组件（decoder）两个部分组成。

（2）采用神经网络处理序列数据。神经网络的工作是将一种类型的数据转换为另一种类型的数据；在训练期间，神经网络的隐藏层以最能代表输入数据类型特征的方式调整其参数，并将其映射到输出。

（3）拥有的训练数据和参数愈多，它就愈有能力在较长文本序列中保持连贯性和一致性。

（4）标记和嵌入。输入文本必须经过处理并转换为统一格式，然后才能输入到Transformer。

（5）实现并行处理整个序列，从而将深度学习模型扩展到前所未有的速度和容量。

（7）训练和回馈。在训练期间，Transformer提供了规模非常大的配对示例语料库（例如英语句子及其相应的法语翻译）。编码器模组接收并处理完整的输入字串，尝试建立编码的注意向量和预期结果之间的映射。

在Transformer之前，发挥近似功能的是循环神经网络或卷积神经网络。Transformer起初主要应用于自然语言处理，但渐渐地，它们在几乎所有的领域都发挥了作用。通用性一直是Transformer最大的优势，包括图像、视频、音讯等多种领域的模型都需要使用Transformer。

大模型、GPU和能源

任何类型的大模型都是由复杂构造支援的，包括硬件基础设施层、软件基础设施层、模型Maas（MobilityasaService，即“交通行动服务”）层和应用层（图2）。在这一结构中，GPU就是硬件基础设施层的核心所在。随着人工智能时代的到来，人工智能演算法效率已经超越了摩尔定律（Moore'sLaw）。

摩尔定律的内容为：积体电路上可容纳的电晶体数目，约每隔两年便会增加一倍。二十一世纪以来，摩尔定律面临新的生态：功耗（包括开关功耗）、记忆体极限，以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限，无法回避量子力学的限制。

图2大模型产业的多层结构

GPU具有数量众多的运算单元，采用极简的流水线进行设计，适合计算密集、易于并行的程式，特别是具备图形渲染和通用计算的天然优势。大模型的训练和推理对GPU提出了更高的要求：更高的计算能力、更大的显存容量、更快的显存频宽、更高效的集群通信能力、低延迟和低成本的推理。

大模型的演变将加速对能源的需求。根据国际数据公司（IDC）预测，到2025年，全球数据量将达到175zB，而且近90%的数据都是非结构化的。这些数据需要大量的计算能力才能被分析和处理。同时，随着人工智能演算法不断升级和发展，它们的复杂性和计算量也在不断增加。

据估计，目前人工智能的能源消耗占全球能源消耗约3%，而据此推断，到2025年，人工智能将消耗15%的全球电力供应。除了硬件开发所必须投入的「固定碳成本」以外，对于人工智能日常环境的维护投入也不容小觑。所以，人工智能的快速发展将对能源消耗和环境产生巨大的影响[25]。

人工智能的快速发展和应用带来了能源消耗和环境问题，需要在技术和政策上寻求解决方案。在这个过程中，需寻求可持续的能源供应，以减少对传统能源的依赖，开发在非常低功耗的芯片上运行的高效大模型。

大模型和知识革命

一般来说，知识结构类似金字塔，包括了数据、信息、知识和智慧四个层次（图3）。大模型具有极为宽泛的溢出效应。其中最为重要的是引发前所未有的学习革命和知识革命。

图3由数据到智慧的金字塔

基于大数据与Transformer的大模型，实现了对知识体系的一系列改变：

（1）改变知识生产的主体。即从人类垄断知识生成转变为人工智能生产知识，以及人类和人工智能混合生产知识。

（3）改变知识的维度。知识可分为简单知识和复杂知识、独有知识和共有知识、具体知识和抽象知识、显性知识和隐性知识等。二十世纪50年代，世界著名的科学哲学大师波兰尼（MichaelPolanyi）发现了知识的隐性维度，而人工智能易于把握知识的隐性维度。

（4）改变知识获取途径。大模型正在引领教育革命，人们熟悉的搜寻引擎正在由启发式的聊天机器人逐步取代。

（5）改变推理和判断方式。人类的常识基于推理和判断，而机器常识则是基于逻辑和演算法；人类可以根据自己的经验和判断力做出决策，而机器则需要依赖程式和演算法。

（6）改变知识创新方式和加速知识更新速度。不仅知识更新可以通过人工智能实现内容生成，而且大模型具有不断生成新知识的天然优势；人类知识处理的范式将发生转换，人类知识的边界有机会更快速地扩展。

（7）改变知识处理方式。人类对知识的处理有六个层次：记忆、理解、应用、分析、评价和创造。大模型在这六个层次的知识处理中，都能发挥一定的作用，为人类大脑提供辅助。

图4知识图谱示例

简言之，如果大模型与外部知识源（例如搜寻引擎）和工具（例如程式设计语言）结合，将丰富知识体系和提高获取知识的效率。万物皆可人工智能化，大模型将引发知识革命，形成人类自然智慧和人工智能智慧并存的局面。

知识需要学习。基于赫布理论（Hebbiantheory）的学习方法被称为“赫布型学习”。赫布理论又称“赫布定律”（Hebb'srule）、“赫布假说”（Hebb'spostulate）、“细胞结集理论”（cellassemblytheory）等，是一个神经科学理论，由赫布（DonaldO.Hebb）于1949年提出，描述了在学习过程中大脑的神经元所发生的变化，从而形成记忆印痕[26]。

赫布理论描述了突触可塑性的基本原理，即突触前神经元向突触后神经元的持续重复的刺激，可以导致突触传递效能的增加。以深度学习为核心的大模型的重要特征就是以人工神经网络作为基础。所以，大模型是充分实践赫布理论的重要工具。

1995年，美国哈佛大学心理学家珀金斯（DavidN.Perkins）提出“真智力”（trueintelligence），并提出智商包括三种主要成份或维度：

（1）神经智力（neuralintelligence），具有“非用即失”（useitorloseit）的特点。

（2）经验智力（experientialintelligence），是指个人积累的不同领域的知识和经验，丰富的学习环境能够促进经验智力。

（3）反省智力（reflectiveintelligence），指一个人使用和操纵其心理技能的能力，类似于元认知（metacognition，对自己的思维过程的认识和理解）和认知监视（cognitivemonitoring，指任何旨在评价或调节自己的认知的活动）等概念；有助于有效地运用神经智力和经验智力的控制系统[27]。大模型恰恰具备上述三种主要成份或维度。

所以，大模型不仅有智慧，而且是具有高智商的一种新载体。

大模型和“人的工具”

虽然大模型实现智慧的途径和人类大脑并不一样，但是最近美国约翰斯·霍普金斯大学（JohnsHopkinsUniversity）的专家发现，GPT-4可以利用思维链推理和逐步思考，有效证明了其心智理论性能。在一些测试中，人类的水平大概是87%，而GPT-4已经达到100%。

此外，在适当的提示下，所有经过基于人类回馈的强化学习训练的模型都可以实现超过80%的准确率[28]。如果人工智能互联网化，或者互联网人工智能化，无疑会推进智慧革命的积聚和深化。

2020年，OpenAI联合创始人奥特曼（SamuelH.Altman）推出名为“世界币”（Worldcoin）的加密货币项目，期望通过人工智能技术支援的全球化金融公平与普惠的开源协定，支援私人数位身份和新的金融系统，“赋予人工智能时代的个人权力”。至2023年5月，超过一百五十万人加入了加密货币钱包WorldApp的测试阶段，已经在八十多个国家或地区可用。

现在，人类面临的大模型挑战，还不仅仅是职场动荡、失去工作、增加失业的问题，而是更为严酷的现实课题：人类是否或早或晚会成为大模型的工具人？不仅如此，如果人工智能出现推理能力，在无人知道原因的情况下越过界限，是否会发生人工智能确实伤害甚至消灭人类的潜在威胁最近网上有这样的消息：有人利用最新的AutoGPT开发出ChaosGPT下达毁灭人类指令，人工智能自动搜索核武器数据，并招募其他人工智能辅助[29]。

人工智能聊天机器人（包括ChatGPT）即使经过数百万文本源的训练，可以阅读并生成“自然语言”文本语言，但是就像人类自然地写作或交谈一样，不幸的是它们也会犯错。这些错误称为“幻觉”，或者“幻想”。值得注意的是，因为人工智能幻觉的存在，很可能发生对人类决策和行为的误导。

正是在这样的背景下，2023年3月29日，马斯克（ElonR.Musk）联名千余名科技领袖，呼暂停开发人工智能，认为这是场危险竞赛，让我们从不断涌现出具有新能力、不可预测的黑匣子模型中退后一步。

据《纽约时报》（TheNewYorkTimes）报导，身在多伦多的图灵奖得主辛顿在4月向Google提出了请辞。辛顿离职的原因是为了能够“自由地谈论人工智能的风险”；他对自己毕生的工作感到后悔，“我用一个正常的理由安慰自己：如果我没做，也会有别人这么做的”。

事实上，控制论之父维纳（NorbertWiener）在《人有人的用处：控制论和社会'》（TheHumanUseofHumanBeings:CyberneticsSociety）一书中认为，机器要在所有层面上取代人类，而非只是作为人类的工具提供替代性的力量，因此机器对于人类的影响是深远的[33]。霍金（StephenHawking）生前也曾多次表达他对人工智能可能导致人类毁灭的担忧。

遗憾的是，现在世界处于动荡时刻，人类已经自顾不暇，无人知晓人工智能的下一步会发生甚么。《机械姬》（ExMachina）是一部2015年上映的英国科幻电影，讲述主人公受邀鉴定人形机器人是否具备人类心智所引发的故事，其中有这样的苍凉台词：“将来有一天，人工智能回顾我们，就像我们回顾非洲平原的化石一样，直立猿人住在尘土里，使用粗糙的语言和工具，最后全部灭绝。”

在人类命运面临的巨变趋势下，人类选择在减少，然而不可放弃让人回归人的价值，需要留下种子一一火星迁徙至少具有这样的超前意识。

结语

图5人工智能1.0和2.0

在人工智能2.0时代，大模型分工愈来愈明确，日益增多的大模型，特别是开源大模型会实现不同的组合。支援大模型的数据不仅要求高品质，而且必须开源，任何与开源大模型的竞争必然注定失败。前述Meta的LLaMA模型所支援的就是开源社区。

可以预见的是，大模型规模的扩大存在着极限：一方面是物理性限制，一方面是大模型存在收益递减的拐点。所以，大模型设计或架构需考虑如何引入控制论，以适应人类回馈。大模型将乐高（Lego）化，构成大模型集群，不仅推动人类社会、物理空间和信息空间日益紧密融合，而且正在生成一个大模型主导的世界（图6）。

图6人类社会、物理空间、信息空间三重视角下的大模型

在这样的历史时刻，我们需要重新认识生成主义（enactivism）。生成主义由瓦雷拉（FranciscoJ.Varela）、汤普森（EvanThompson）和洛什（EleanorRosch）在《具身心智：认知科学和人类经验》（TheEmbodiedMind:CognitiveScienceandHumanExperience）中提出，主张心智能力是嵌入在神经和体细胞活动中的，并通过生物的行为而涌现[35]。

论者指出，“生成认知强调，我们所经验的世界是有机体的物理构成、它的感觉运动能力和与环境本身互动的产物。有机体的世界不是一个预先给定的、客观的、静待有机体去‘经验’、‘表征’或‘反映’的中性世界。相反，世界是通过有机体的行动或动作而生成的”[36]。人工智能的生成式大模型，确实包括生成主义的要素。人工智能将给生成主义注入新的生命力。

THE END

大模型的未来，从人工智能三个里程碑说起神经网络自然语言处理

大模型的未来，从人工智能三个里程碑说起神经网络自然语言处理

自然语言处理的发展历程左手编程右手诗

于自然语言处理的发展历程，以下哪项描述是错误的？（）

自然语言处理范文

ChatGPT浅析：应用领域前景广阔，但同时挑战与风险并存—背景篇

人工智能行业发展分析报告中国人工智能行业发展前景预测与投资战略规划分析报告

人工智能的发展历程与未来应用领域.pptx